Hatırlatmalar: Model: Y X



Benzer belgeler
( i) ( ' ) 1. * Dışsal Studentleştirilmiş Artıklar (Externeally Studentized Residuals, Deleted Studentized Residuals, Jacknifed Residuals) ( )

SAY 211 SAĞLIK EKONOMİSİ

DÜNYA İTHALATÇILAR LİSTESİ

İstatistik ve Olasılık

MİLLİ DNA VERİ BANKASI ÇALIŞMALARI ve ADLİ DNA ANALİZLERİNDE YENİ NESİL

Matris Cebiriyle Çoklu Regresyon Modeli

6. Ders. Genelleştirilmiş Lineer Modeller (Generalized Linear Models, GLM)

İÇİNDEKİLER 1. GİRİŞ...

TMMOB İNŞAAT MÜHENDİSLERİODASI ANKARA ŞUBESİ

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

2013 YILI İTHALAT HARİTASI

TÜRKİYE DE KADıN EMEĞİ VE İSTİHDAMıNıN MEVCUT DURUMU

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Bakım, Onarım ve Yenileme (MRO) Kılavuzları. Yeni ürünler

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

METAL MOBİLYA PAZAR ARAŞTIRMASI

Dijital Çağda Mendeley ve Siz. Dr.Başak Candemir 1

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

2. BASİT DOĞRUSAL REGRESYON 12

Büyük boyutun laneti (Curse of Dimensionality)

KONYA MÝMARLAR ODASI. Baðlantýlar

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Türkiye Ekonomisinde Büyüme ve Rekabet Politikası

7. Ders Genel Lineer Modeller Singüler Modeller, Yanlış veya Bilinmeyen Kovaryanslar, Đlişkili Hatalar

İSTATİSTİK-II. Korelasyon ve Regresyon

400 HbA1c test veya 200 HbA2/F/A1c test D-10 Printer Kağıdı...10 rulo Lyphochek Diabet Kontrol ikiseviye (2 seviyeden 3 adet)...

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

TÜRKİYE ODALAR VE BORSALAR BİRLİĞİ

2016 Elektrifikasyon Ürünleri bölümü Profil

Üç Boyutlu Serpilme (Saçılım) Grafikleri

PASSPORT VERİ TABANI

SIRADAN EN KÜÇÜK KARELER (OLS)

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

LİNİK ARAŞTIRMALARDA NEREDEYİZ? Dr. Ecz. Nihan BURUL BOZKURT Daire Başkanı 9 Mayıs 2018

Transfer Fiyatlandırmas

İçindekiler. Ön Söz... xiii

Shark Serisi Malzemeye özel uygulama kılavuzları. Yeni Ürünler 2018

İSTATİSTİK 2. Hipotez Testi 21/03/2012 AYŞE S. ÇAĞLI.

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

NARENCİYE Uluslararası Pazar Analizi. Yaş Meyve ve Sebze Kümesi

UN SEKTÖRÜ DIŞ PAZAR ARAŞTIRMASI

EŞANLI DENKLEM MODELLERİ

Medya Paylaşım Toplantıları 15

KORELASYON VE TEKLİ REGRESYON ANALİZİ-EN KÜÇÜK KARELER YÖNTEMİ

Yüksek performanslı karbür matkaplar

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

kula 2012 ÜRÜN YELPAZESİ

Sağlık Hizmeti Modelleri, Karşılaştırmalar

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

9. ARDIŞIK BAĞIMLILIK SORUNU (AUTOCORRELATION) 9.1. Ardışık Bağımlılık Sorunu Nedir?

İHRACAT-İTHALAT

Ki- Kare Testi ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL

İhracat-İthalat

T.C. MALĠYE BAKANLIĞI Muhasebat Genel Müdürlüğü. 15 inci YILLIK OECD KAMU SEKTÖRÜ TAHAKKUKLARI Sempozyumuna ĠliĢkin Rapor

İÇİNDEKİLER ÖN SÖZ...

Ekonometri I VARSAYIMLARI

KA-1 : Öğrenme Hareketliliği

MAK 210 SAYISAL ANALİZ

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

PASSPORT VERİTABANI AKADEMİK ARAŞTIRMA İÇİN ANA SAYFANIZ. Mert Kaymakcı İş ve Müşteri Geliştirme Müdürü

Atradius Kredi Sigortaları Sunumu

REGRESYON ANALĐZĐ. 1

HİPOTEZ TESTLERİ. Yrd. Doç. Dr. Emre ATILGAN

2013 Steinbeis Partner for innovation Technology.Transfer.Application.

tepav Etki Analizi ve TEPAV ın gündemindeki yeri Güven Sak Ankara, 8 Nisan 2008 Türkiye Ekonomi Politikaları Araştırma Vakfı

GÜVENLİ TİCARETİN ADRESİ: EULER HERMES

Boğaziçi Üniversitesi İnşaat Mühendisliği Bölümü

QUANTILE REGRESYON * Quantile Regression

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

1. YAPISAL KIRILMA TESTLERİ

Turizm ve Yoksullaştıran Büyüme

BÖLÜM 1: YAşAM ÇÖzÜMLEMEsİNE GİRİş... 1

AÇIKHAVA REKLAMCILIĞINDA KALİTE. Wall Türkiye

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

LÜTFEN KAYNAK GÖSTEREREK KULLANINIZ 2013

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI

İSTATİSTİKSEL VERİ ANALİZİ

OLASILIK ve İSTATİSTİK Hipotez Testleri

Türkiye de Kadınların Sağlığı

VEKTÖR UZAYLARI 1.GİRİŞ

2017 VISION TRENDLER

Nederman Talaşlı İmalat Konsepti. Temiz Hava Temiz Çalışma ortamı Temiz Soğutucu Sıvıları Temiz Çevre ve Geri Dönüşüm

Projenin Adı: Matrisler ile Diskriminant Analizi Yaparak Sayı Tanımlama. Giriş ve Projenin Amacı:

GÜVEN ARALIĞI KESTİRİM

BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI)

ÇOKLU REGRESYON MODELİ. Bir bağımlı değişkene etki eden çok sayıda bağımsız değişkeni analize dahil ederek çoklu regresyon modeli uygulanabilir.

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU

KONULAR. 14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

ÖRNEKLER-VEKTÖR UZAYLARI 1. Çözüm: w=k 1 u+k 2 v olmalıdır.

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Korelasyon ve Regresyon

A. Regresyon Katsayılarında Yapısal Kırılma Testleri

1-2 - * Bu Ders Notları tam olarak emin olmamakla birlikte yıllarına aiitir.tekrardan Sn.Hakan Paçal'a çoook tsk ederiz...

DIŞ PAZAR ARAŞTIRMASI

EME 3117 SİSTEM SIMÜLASYONU. Girdi Analizi. Özet İstatistikler ve Histogram (Minitab)(1) Örnek: Eczane İçin Servis Süreleri

1: DENEYLERİN TASARIMI VE ANALİZİ...

Transkript:

Hatırlatmalar: Model: Y X 4. Ders Varsayımların Sınanması Aykırı Değerler ve Etkin Gözlemler = β + ε, ( rank( X : n p) = p) Parametre kümesi: Θ= {( βσ, ) : β R p, σ > 0} Varsayım: A) Eε = Covε = σ I (küçük örneklemlerde hipotez testi yapılamaz) veya ( ) 0, ( ) n B) ε (0, σ ) (hipotez testi modeli) N I n Parametre Tahmini: βˆ = ( ) = σˆ 1 + X X X Y X Y ( Y Xβˆ ) ( Y Xβˆ ) 1 1 AKT = = Y ( I X ( X ' X ) X ') Y= n p n p n p Hipotez Testi: {( βσ, ) : β R p, σ (0, )} Θ= ve H, q p mertebeli, rankı q olan verilmiş bir matris ve h, q 1 boyutlu verilmiş bir vektör olmak üzere, olsun. { βσ β R p σ Hβ h} Θ 0 = (, ) :, (0, ), = Θ H : Hβ= h H : β Θ 0 0 0 H1: Hβ h H1 : β Θ 0 hipotezleri için olabilirlik oranı test fonksiyonu aşağıdadır. H 0 hipotezi doğru olduğunda, dır. 1 1 ˆ ( β β) H H ( X X ) H ( ˆ Hβ β) n p W ( Y ) =. F 1 Y ( I X ( X ' X ) X ') Y q H : H h ( rank( H ) q) 0 ( q, n p) β= = hipotezi altındaki indirgenmiş modelde σ en çok olabilirlik (yansızlık düzeltmesi yapılmış) tahmin edicisine bağlı olarak, ˆω ( n p+ q) σˆ ( ) ˆ ω n pσ n p W ( Y ) =. F ( n p) σˆ q ( q, n p) yazılabilir. ( AKT AKT ) / q Đndirgenmiş Model W ( Y ) = F AKT / ( n p) ( q, n p)

Varsayımların Sınanması Genel olarak, Y = X β + ε modeli için varsayımlar: 1) E( ε ) = 0 yani i = 1,,..., n için E( ε ) = 0, ) ε1 ε,,..., n ε ler bağımsız, i 3) ε1, ε,..., ε n lerin her biri σ varyanslı, 4) ε1 ε,,..., n ε lerin her biri normal dağılıma sahip, dır. Parametreler için nokta tahmin, güven aralığı, hipotez testi gibi istatistiksel sonuç çıkarımların doğruluk derecesi varsayımların geçerli olup olmadığına bağlı olduğu açıktır. Bu varsayımlar uygulamalarda sağlanmayabilir. Đrdeleme sonucunda, varsayımlardan birinin ya da daha çoğunun aykırılığına karar verilirse aşağıdaki yollardan biri izlenebilir. a) Dağılımdan bağımsız istatistiksel sonuç çıkarma yöntemlerini kullanmak. b) Eğer mümkün ise bir (yada daha çok) varsayımın aykırı bir durum gösterdiğinde doğru varsayımın ne olduğuna karar verip bu yeni varsayım altında geçerli olan yöntemi kullanmak. Örneğin ε i nin ( i = 1,,..., n) normal dağılım yerine başka bir dağılıma sahip olduğu belirlenmiş ise bu dağılım için parametre tahmini veya hipotez testini yürütmek gerekir. ε1, ε,..., ε n lerin bağımsız olmadıklan ve aralarında bilinmeyen ancak sabit bir korelasyon ( ρ ) olduğu belirlenmiş ise yeni varsayımı içeren geçerli istatistiksel sonuç çıkarım yöntemini kullanmak gerekir. c) Mümkünse tüm varsayımlar (4 tane) sağlanacak şekilde veriler üzerinde uygun dönüşüm yapmak veya açık bir şekilde yanlış ölçümler varsa bu gözlemleri çıkarmak. d) Varsayımlardan geçerli olmayanları ihmal ederek tüm varsayımlar sağlanıyormuş gibi işlemlere devam etmek.

Varsayımlar gözlenemeyen ε geçerliliğinin sınanması, hata vektörü ile ilgilidir. Bu varsayımların ε = Y X β olmak üzere, artıkların (residuals) vektörü denen, r = Y Yˆ = Y X ˆ β ( ( ' ) 1 ') = I X X X X Y = ( I H ) Y vektörü ile yapılmaktadır. Y vektörü, bağımlı değişken ile ilgili gözlemlerin vektörü olmak üzere, Yˆ ( Yˆ = X ˆ β ) vektöründeki değerlere uydurulan değerler (fitted values) denir. modeli için, dır ve Y = X β + ε, ε N(0, σ I) ( 0, ( ( ' ) 1 σ ') ) r N I X X X X [ ] [ ] Cov( ˆ β, r) = E ˆ β r E ˆ β E r 1 1 = E ( X ' X ) X ' YY ( I X ( X ' X ) X ') 1 1 = ( X ' X ) X ' E YY ( I X ( X ' X ) X ') 1 1 = σ ( X ' X ) X '( I X ( X ' X ) X ') = 0 p n olup, r ile ˆβ bağımsızdır. 1 = matrisi özel bir öneme sahiptir. = ( ) olmak üzere, H X ( X ' X ) X ' H h ij n n dır. ( ) r = I H Y r = (1 h ) Y + h Y, i = 1,,..., n i i ij j j= 1,,..., n j i i = σ h i j = σ hij Var( r ) (1 ) Cov( r, r )

Varsayımların sağlanıp sağlanmadığının araştırılması Artık Analizi ile yapılabilir. * Birinci varsayım hatanın beklenen değerinin sıfır olması ile ilgilidir. Örneğin bir araştırmacı modelin, Yi = β0 + β1 Xi + εi, i = 1,,..., n, E( εi ) = 0 olduğunu kabul etsin, fakat gerçek model, i β β i β i i i Y = 0 + 1X + X + u, i = 1,,..., n, E( u ) = 0 olsun. Bu takdirde, kabul edilen modelde, i i i i E( ε ) = E( β X + u ) = β X, i = 1,,..., n olup, ε i nin beklenen değeri sıfır değildir. Kabul edilen model Yi = β0 + β1 Xi + εi, i = 1,,..., n, E( εi ) = 0 için, r = Y ˆ β ˆ β X, i = 1,,..., n i i 0 1 i olmak üzere, bu model geçerli ise artıklar için E( r i ) = 0 dır. Diğer model geçerli ise E( r ) = β X i i dır. Artıkların serpilme diyagramında, xi, i = 1,,..., n gözlemlerine karşılık iki boyutlu bir koordinat sisteminin ordinatında ri, i = 1,,..., n artıkları işaretlenirse, kabul edilen model geçerli olduğunda, absis etrafında gelişigüzel bir serpilme ortaya çıkacaktır. Diğer model geçerli ise artıkların serpilme diyagramı absis etrafında gelişigüzel olmayıp, modele karesel terim katılmasına işaret edecektir. Böyle bir terimin modele eklenmesinden sonra β katsayısının sıfıra eşit olup olmadığının test edilmesi gerekecektir. Basit Lineer Model için yapılan bu açıklamalar genel halde de geçerlidir.

>> epsilon=randn(15,1); >> x=[1 1.5.5.8 3 3 3.8 4 4 4.7 5 5. 6 6]'; >> Y=10+5*x+x.^+epsilon; >> X=[ones(15,1) x x.^] X = 1.0000 1.0000 1.0000 1.0000 1.5000.500 1.0000.0000 4.0000 1.0000.5000 6.500 1.0000.8000 7.8400 1.0000 3.0000 9.0000 1.0000 3.0000 9.0000 1.0000 3.8000 14.4400 1.0000 4.0000 16.0000 1.0000 4.0000 16.0000 1.0000 4.7000.0900 1.0000 5.0000 5.0000 1.0000 5.000 7.0400 1.0000 6.0000 36.0000 1.0000 6.0000 36.0000 >> [B,BINT,R] = REGRESS(Y,X) B = BINT = R = 0.7644 0.6565-0.958-1.3841-0.0683-0.665-0.7795 0.7590 1.7887-0.46-0.440 0.1879 1.1118-0.388-0.7353 11.571 4.4064 1.0511 8.3533 14.1609.6670 6.1458 0.8160 1.861 (Katsayı tahminleri) (Katsayılar için Güven Aralıkları) (Artıklar)

>> plot(x,r,'.') 1 0-1 - 1 1.5.5 3 3.5 4 4.5 5 5.5 6 Artıklar absis (y=0) doğrusu etrafında gelişigüzel serpilmiş olup, her hangi bir olumsuzluk göze çarpmamaktadır. >> figure; plot(x,y,'.') 80 70 60 50 40 30 0 Bu veri için, 10 1 1.5.5 3 3.5 4 4.5 5 5.5 6 Yi = β0 + β1 Xi + εi, i = 1,,..., n, E( εi ) = 0 gibi bir modelin geçerli olduğunu düşünseydik. >> [beta, guv_ar, artiklar] = REGRESS(Y,[ones(15,1) x]) beta = -0.1709 1.04 guv_ar = -4.0899 3.748 (Aralık sıfırı içeriyor!) 11.075 13.009 artiklar = 5.656 3.06-0.5617 -.4317-1.799 -.34 -.7455-1.5835-0.4376 -.476-1.5998-0.1967 1.3478 3.171.841 >> R= artiklar; figure ; plot(x,r,'.') 6 4 0 - -4 1 1.5.5 3 3.5 4 4.5 5 5.5 6 Artıkların serpilmesi iyi değil.

Önce sabit terimi modelden kaldıralım. >> [beta, guvenaralığı, artiklar] = REGRESS(Y,x) beta = 11.9841 guvenaralığı = 11.6194 1.3487 artiklar = 5.4948.9119-0.653 -.501-1.7884 -.88 -.7959-1.6017-0.4478 -.488-1.5819-0.1668 1.3858 3.413.894 >> R= artiklar; figure ; plot(x,r,'.') 6 4 0 - -4 1 1.5.5 3 3.5 4 4.5 5 5.5 6 Artıklar, parabolik serpilmenin önüne geçecek bir terimin modele alınmasını önermektedir.

* Đkinci varsayım hata terimlerinin bağımsızlığı ile ilgilidir. Bu varsayımın geçerliliğini sınamak için artıklara run testi uygulanabilir. Artıklar gözlem sırasına göre dizildiğinde her hangi gecikmeli ilişkinin varlığı bağımsızlığın bozulduğu anlamına gelmektedir. Bunun ortaya çıkarılması zaman serilerindeki gibi yapılır. Birçok Lineer Model uygulamasında hata terimi ile ilgili bağımsızlık varsayımı yerinde ε1, ε,..., ε n lerin ilişkisiz olması varsayımı konmaktadır. Bir gecikmeli serisel korelasyonun olup olmadığı Durbin-Watson testi ile yapılmakta ve paket programlarda yer almaktadır. * Üçüncü varsayım hataların varyanslarınınn eşit olmasıdır. Bu varsayımın geçerliliğini sınamak için kabaca artıkların serpilme diyagramındaki şerit genişliğinin değişimine bakılabilir veya ilgili testler (aynı tasarım noktasında çok gözlem olduğunda Bartlett testi) uygulanabilir. * Dördüncü varsayım hataların normal dağılıma sahip olmasıdır. Bununla ilgili olarak, artıklara normal dağılıma uyumluluk testleri uygulanabilir veya normal dağılıma uyumluluk, histogram gibi görsel istatistiklerle sınanabilir. Varsayımların geçerliliğinin sınanması artıkların analizine dayanmaktadır. Artıkların hatalar için bir örneklem yani hataların gözlenen değerleri olmadıklarını belirtelim. Bir varsayımın geçerli olmadığı ortaya çıktığında bunun yerini neyin alacağı da açık değildir. Ayrıca bazı varsayımların geçerliliğini sınamada başka varsayımlar yapıldığını da vurgulayalım. Her şeye rağmen Lineer Model uygulamalarında artık analizi çok iyi sonuçlar vermekte ve mutlaka yapılması gerekmektedir. Artıklar aykırı değer (outlier) incelemesinde de öne çıkmaktadır.

Artıklar: * Alışılmış Artıklar 1 ( ) r = Y Yˆ = Y X ˆ β = I X ( X ' X ) X ' Y E( r) = 0, Cov( r) = σ ( I H ) * Normlanmış Artıklar norm 1 1 r = r = r r r ' r * Standartlaştırılmış Artıklar standart 1 r ' r AKT ri = ri, i = 1,,..., n ( ˆ σ = = ) ˆ σ n p n p * Đçsel Studentleştirilmiş Artıklar (Internally Studentized Residuals) 1 1 r ' r AKT e = r = r, i = 1,,..., n ( ˆ σ = = ) n p n p i ˆ σ (1 h ) i ˆ σ 1 h i * Dışsal Studentleştirilmiş Artıklar (Externeally Studentized Residuals) 1 1 e = r = r, i = 1,,..., n i * ˆ σ ˆ ( )(1 ) i ( ) 1 i i h σ i h Buradaki ˆ σ ( i ) değeri modelde i. gözlem çıkartıldıktan sonra Y( i), X( i) gözlemlerine dayalı olarak elde edilen değerdir. ve ( ' ) ( ) 1 ( i) = '( i) ( i) ( i) ( i) H X X X X Y ' ( i) I H( i) Y( i) ˆ σ ( i) =, i = 1,,..., n n p 1 olsun. ˆ β = ( ' ) 1 X X X Y ( i) ( i) ( i) ( i) ( i) Yˆ = X ˆ β + X ˆ β +... + X ˆ β i( i) i1 1( i) i ( i) ip p( i) * PRESS Artıkları (Prediction Sum of Squares Residuals) dır. ˆ ri ri ( i) = Yi Yi ( i) =, i = 1,,..., n 1 h n ( PRESS ( Y ˆ i Yi ( i) ) ri = = 1 h ) i= 1 i= 1 n

Aykırı Değerler(Outliers) Modele uyumda aykırılık gösteren gözlemlerin (bu modelde bulunmaları şüphe taşıyan gözlemlerin) tespiti için doğal bir teşhis ölçütü, ˆ ri ri ( i) = Yi Yi ( i) =, i = 1,,..., n 1 h PRESS Artıkları olmaktadır. Diğer artıklar da aykırı değerleri teşhis edebilmektedir. ve ( i i ) σ Var r ( ) =, i = 1,,..., n 1 h olmak üzere, r i( i) i Var r ( i( i) ) r =, i = 1,,..., n σ 1 h r ˆ i Yi Yi r ' r AKT ei = =, i = 1,,..., n ( ˆ σ = = ) ˆ σ 1 h ˆ σ 1 h n p n p istatistiği, aynı zamanda Studentleştirilmiş Artık olmak üzere, aykırı değerlerin tespiti için doğal bir teşhis ölçütü olmaktadır. Studentleştirilmiş Artıklar yaklaşık olarak t- dağılımlıdırlar. Ordinat ekseninde artıklar olmak üzere, serpilme diyagramında -3 ile +3 değeri dışında bulunan noktalara karşılık gelen gözlemler aykırı değer olarak nitelendirilebilir. Bunun yanında, e max = max e i i olmak üzere, aykırı değer teşhisinde e max istatistiği için kritik değer, ( n p) F n p 1+ F α 1, n p 1 ; 1 n α 1, n p 1 ; 1 n dır. (S. Chatterjee and A.Hadi, (1987) Sensitivity Analysis in Linear Regression, John Wiley & Sons.) Aykırı değer, çok büyük e i r ˆ i Yi Yi = = ˆ σ 1 h ˆ σ 1 h artıklı değer olarak tanımlanabilir. Aykırı değerin varlığı, model yapısının yanlış olmasından, gözlem hatalarından, rasgelelikten kaynaklanabilir. Aykırı değerler sonuç çıkarımı olumsuz etkileyebilir. Model yapısından veya gözlem hatalarından kaynaklanıyorsa bunun düzeltilmesi veya atılması gerekir.

Yüksek-Kaldıraç Noktalar (High-Leverage Points) p Açıklayıcı değişkenlerin gözlem matrisi olan X matrisinin satırları p-boyutlu R uzayında noktalar olarak işaretlendiğinde, n tane noktanın bir serpilme diyagramı ortaya çıkmaktadır. Bu serpilme diyagramında veri merkezinden uzakta, veri bulutunun dışında olan noktalar yüksek-kaldıraç noktalar olarak isimlendirilmektedir. Yüksekkaldıraç noktalar H = X ( X ' X ) X ' matrisinde büyük h değerlerine sahip 1 noktalardır. n h = p olmak üzere, i= 1 h p > n olan gözlemler yüksek-kaldıraç noktaları olarak nitelendirilebilir. X = 1.0000-1.0490-1.0750 1.0000 -.307-1.3876 1.0000-1.7014-1.519 1.0000 1.4078 1.03 1.0000-0.639-0.3191 1.0000 0.6673 0.7077 1.0000 1.3451 1.347 1.0000 -.1674-1.3506 1.0000-0.111 0.504 1.0000 0.6813 1.8867 1.0000-0.7034-0.086 1.0000-0.189-0.110 1.0000.0689 1.857 1.0000-0.0049 0.039 1.0000 0.563-0.3706 >> plot(x(:,),x(:,3),'.') 1.5 1 0.5 0-0.5-1 -1.5 - -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5

>> H=X*(X'*X)^(-1)*X' >> diag(h) ans = 0.158 0.949 0.103 0.1660 0.099 0.097 0.1568 0.550 0.11 3 0.5314 ( 0.5314 > = 0.4 ) 15 0.109 0.0734 0.680 0.0730 0.3961 1.5 1 0.5 0-0.5-1 -1.5 - -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 Yüksek-kaldıraç noktalar, sadece X matrisinin satırlarının oluşturduğu gözlem noktaları (tasarım noktaları da diyebiliriz) ile ilgilidir. Kırmızı işaretli yüksek-kaldıraç noktaları X matrisindeki 10. ve 15. gözlemlerdir. Sağ üst köşedeki nokta bir yüksekkaldıraç noktası değildir. Bu X matrisindeki 13. gözem olup, h değeri 0.680 dır. Đkinci gözlemin h değeri 0.949 dır. Đkinci gözlem ile 13. gözlem önemli birer kaldıraç noktasıdır diyebiliriz. Modelde bir açıklayıcı değişken olması durumunda yüksek-kaldıraç noktalar, bu değişkenin ortalamadan sapmalar şeklindeki gözlem değerlerinin uç noktalarıdır. Yüksek-kaldıraç noktaları, üzerlerinde alınan bağımlı değişkene ait gözlemle birlikte p 1 R + de bir nokta olarak ele alındığında veri kümesinin içinde kaybolabilir. Yüksekkaldıraç noktaları aykırı gözlem olabilir veya olmayabilirler.

Etkin Gözlemler (Influential Observations) Etkin gözlem dendiğinde, bunun neyi etkilediği, yani bu gözlemin veri kümesinden çıkartılmasıyla neyin büyük ölçüde etkilendiğinin de belirtilmesi gerekir. Önemli bir etkinlik ölçütü Hampel tarafından önerilen etkinlik fonksiyonudur. Buna değinmeyeceğiz. Burada, bireysel parametre tahminleri veya bağımlı değişkenin tahmini (prediction) ile ilgili etkin gözlemlerden söz edilecektir. Aykırı değerler (aykırı gözlemler) gibi etkin gözlemler de Lineer Model çözümlemesinde (analizinde) önemli yer tutmaktadır. X matrisi 1.0000-1.0490-1.0750 1.0000 -.307-1.3876 1.0000-1.7014-1.519 1.0000 1.4078 1.03 1.0000-0.639-0.3191 1.0000 0.6673 0.7077 1.0000 1.3451 1.347 1.0000 -.1674-1.3506 1.0000-0.111 0.504 1.0000 0.6813 1.8867 1.0000-0.7034-0.086 1.0000-0.189-0.110 1.0000.0689 1.857 1.0000-0.0049 0.039 1.0000 0.563-0.3706 Y 10.6445 11.171 0.3760 8.9588 0.0587 10.383 9.571 0.3155 10.507 10.6784 10.5813 10.077 0.4435 10.177 8.795 >> regress(y,x) 7.09-1.31.0883 >> plot3(x(:,),x(:,3),y,'.'); grid on 15 10 5 0 1 0-1 - -4-0 4

>> plot (X(:,),X(:,3)) 1.5 1 0.5 0-0.5-1 -1.5 - -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 >>regress(y,x) 7.09-1.31.0883 >>regress(y_13,x_13) 8.0505-0.667.1433 >> regress(y_,x_) 6.9816-0.36 1.5958 >>regress(y_10,x_10) 6.9508-0.5898 0.7495 >> regress(y_15,x_15) 6.5817 -.6318 3.6736 >> regress(y_1,x_1) 6.7671-1.5737.7776 Yüksek-kaldıraç noktası olan 10. ve 13. gözlemler parametre tahmininde etkin gözlemlerdir. Đkinci ve 13. gözlem de etkin sayılabilir. Her gözlemin az da olsa bir etkisi söz konusudur. Çok etkili gözlemler yüksek-kaldıraç noktası olarak isimlendirilmektedir.

Basit Doğrusal Regresyonda Aykırı Değer, Yüksek-Kaldıraç Noktası ve Etkin Gözlemler X matrisi Y 1.0000 1.4189 6.538 1.0000 4.176 10.844 1.0000 9.1574 14.166 1.0000 7.91 1.864 1.0000 9.5949 13.766 1.0000 6.5574 11.8518 1.0000 0.3571 4.009 1.0000 8.4913 14.056 1.0000 9.3399 15.9635 1.0000 6.7874 11.0956 1.0000 7.5774 13.4354 1.0000 7.4313 13.6853 1.0000 3.93 7.385 1.0000 6.5548 10.1138 1.0000 1.7119 7.830 >> beta=regress(y,x) beta = 4.4645 1.0944 >> plot(x(:,),y,'.') >> hold on >> plot(x(:,),x*beta,'r') 16 14 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10

>> [beta guvar artik]=regress(y,x) beta = 4.4645 1.0944 guvar = 3.1583 5.7708 0.9006 1.883 artik = 0.5154 1.040-0.700-0.308-1.09 0.107-0.8344 0.4480 1.771-0.797 0.6779 1.0877-1.486-1.544 0.9450 >> plot(artik,. ) 1 0-1 - 0 5 10 15 Studentleştirilmiş Artıklar: >> studart=(y-x*beta)./sqrt(s*(1-diag(x*(x'*x)^(-1)*x'))) studart = 0.5797 1.437-0.865-0.3184-1.935 0.147-0.9958 0.4676 1.364-0.8134 0.6969 1.1161-1.4833-1.5535 1.0487 1 0-1 - 0 5 10 15

Şimdi bu gözlemlerden üçüncüsünde, bağımlı değişken ile ilgili 14.166 gözlemini 10 ile değiştirelim (gözlem hatası oluşsun). >>YY = 6.538 10.844 10 1.864 13.766 11.8518 4.009 14.056 15.9635 11.0956 13.4354 13.6853 7.385 10.1138 7.830 >> beta=regress(y,x) beta = 4.4645 1.0944 >>[beta guvar artik]=regress(yy,x) beta = 4.7990 0.9930 guvar =.8154 6.787 0.6986 1.874 artik = YY-X*beta 0.348 1.973-3.893 0.1608-0.5641 0.5413-1.137 0.9747 1.8900-0.4433 1.110 1.5070-1.3654-1.1941 0.7840 1 0-1 - -3-4 0 5 10 15

>> s=(yy-x*beta)'*(yy-x*beta)/(15-) s =.3838 >> studart=(yy-x*beta)./sqrt(s*(1-diag(x*(x'*x)^(-1)*x'))) studart = 0.405 0.884 -.7199 0.1093-0.3995 0.3633-0.8903 0.6701 1.377-0.978 0.757 1.018-0.9335-0.8013 0.5730 1 0-1 - -3 0 5 10 15 Yukarıdaki veriye bir Yüksek-Kaldıraç Noktası ekleyelim. >>XYK= [X ; 1 max(x(:,))+3] >> diag(xyk*(xyk'*xyk)^(-1)*xyk') >> diag(x*(x'*x)^(-1)*x') 1.0000 1.4189 1.0000 4.176 1.0000 9.1574 1.0000 7.91 1.0000 9.5949 *** 1.0000 6.5574 1.0000 0.3571 1.0000 8.4913 1.0000 9.3399 1.0000 6.7874 1.0000 7.5774 1.0000 7.4313 1.0000 3.93 1.0000 6.5548 1.0000 1.7119 1.0000 1.5949 Bu gözlem Y değerine bağlı olarak etkin olabilir. 0.146 0.098 0.105 0.0749 0.103 0.065 0.851 0.0866 0.111 0.0631 0.0697 0.0679 0.1013 0.065 0.1974 0.849 0.35 0.0934 0.1410 0.0934 0.1635 0.0685 0.309 0.114 0.1500 0.0707 0.0844 0.0811 0.106 0.0685 0.146

Katsayı tahmini üzerinde en etkin gözlem hangisidir? X matrisi Y 1.0000 1.4189 6.538 1.0000 4.176 10.844 1.0000 9.1574 14.166 1.0000 7.91 1.864 1.0000 9.5949 13.766 1.0000 6.5574 11.8518 1.0000 0.3571 4.009 1.0000 8.4913 14.056 1.0000 9.3399 15.9635 1.0000 6.7874 11.0956 1.0000 7.5774 13.4354 1.0000 7.4313 13.6853 1.0000 3.93 7.385 1.0000 6.5548 10.1138 1.0000 1.7119 7.830 16 14 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10 >> beta=regress(y,x) 4.4645 1.0944 regress(y_1,x_1) 4.714 1.1188 regress(y_5,x_5) 4.306 1.1339 regress(y_9,x_9) 4.5967 1.056 regress(y_13,x_13) 4.6655 1.0056 min regress(y_,x_) 4.597 1.1136 regress(y_6,x_6) 4.4546 1.0936 regress(y_10,x_10) 4.496 1.099 regress(y_14,x_14) 4.5360 1.1006 regress(y_3,x_3) 4.4395 1.100 regress(y_7,x_7) 4.8783 max 1.0398 regress(y_11,x_11) 4.4679 1.0857 regress(y_15,x_15) 4.1364 min 1.1353 max regress(y_4,x_4) 4.4574 1.0993 regress(y_8,x_8) 4.4886 1.0849 regress(y_1,x_1) 4.4618 1.0819 Yeşil işaretli gözlemler sabit terimin tahmini üzerinde etkili. Kırmızı işaretli gözlemler X in katsayı tahmini üzerinde etkili.

Yüksek-kaldıraç noktalar sadece X matrisine (matrisindeki gözlem değerlerine) bağlıdırlar. Yüksek-kaldıraç noktaları genellikle etkin gözlemler olmakla birlikte, bazıları etkin gözlem olmayabilir. Yüksek-kaldıraç noktalar genellikle küçük artıklara sahip olma eğilimindedir. Etkin gözlemler hem Y vektörüne hem X matrisine bağlıdırlar. Etkin gözlemler aykırı gözlem olmak zorunda değil. Aykırı gözlemler de etkin gözlem olmak zorunda değil. Kaldıraç ve etkin gözlemlerin teşhisinde Mahalonobis uzaklığı gibi birçok uzaklık ölçütü de söz konusudur. Mahalonobis Uzaklığı X matrisinin sütünlar üzerinden ortalamadan sapmalar şeklindeki matrisi * * X olsun. X matrisinde birlerden oluşan bir sütün bulunduğunda X, bu sütun dışındaki sütunlardan oluşan matrisin ortalamadan sapmalar şeklindeki matristir. * 1 = n n n X ( I 1 ) X * n p X matrisinin i. satır vektörü x * : p 1 ( i = 1,,..., n) olmak üzere, i. tasarım noktasının merkeze olan Mahalonobis uzaklığı, ( ) 1 olarak tanımlanmaktadır. 1 *' *' * * x, 1,,..., 1 i X X x i i = n n i i.tasarım noktasının diğer noktaların kümesine olan Mahalonobis uzaklığı, ' 1 1 * 1 ' * * ' 1 * * 1 ' * M i = x 1 1 ( ) ( ) ( 1 ( 1) ( 1) ) ( ) 1 1 ( ) i 1 n X i X i I 1 n n X i x i 1 n X n n n n i olarak tanımlanmaktadır. n( n ) h 1/ n Mi =, i = 1,,..., n n 1 1 h olmak üzere, eşdeğerdir. M i değerleri ile h değerleri yüksek-kaldıraç noktalarının tespitinde

Z( Z ' Z) ' 1 Z Matrisinin Köşegen Elemanları 1 Yüksek-kaldıraç noktalar H = X ( X ' X ) X ' matrisindeki köşegen elemanlardan büyük h değerlerine sahip noktalardır. Bu noktalar, X matrisin satır vektörlerinin p oluşturduğu R uzayındaki tasarım noktalarının merkezinden uzak olan noktalardır. Açıklayıcı değişkenler ile bağımlı değişkenin Z = [ X Y ] matrisinin satır vektörlerinin p 1 oluşturduğu R + uzayındaki nokta kümesinin merkezinden uzak olan noktalar, 1 Z( Z ' Z) Z ' matrisinin h Z köşegen elemanlarından büyük olanlara karşılık gelmektedir. Bu noktalar, yüksek-kaldıraç noktası veya aykırı değer olabilir. h Z ri = h + r ' r olmak üzere, büyük bir h Z değerine karşılık gelen i. gözlemin yüksek-kaldıraç noktası ya da aykırı değer olması ayırt edilememektedir. Cook Uzaklığı Cook Uzaklığı, model katsayılarının tahmini üzerinde etkili gözlemlerin tespitinde kullanılan bir ölçüttür. Yeniden hatırlatalım; bir gözlemin modelden çıkartılması tahmin sonuçlarını etkiliyorsa buna etkin gözlem denir. ( ˆ β ˆ β ˆ ˆ ( i) )'( X ' X )( β β( i) ) 1 h Di = = e, 1,,..., i i = n p ˆ σ p 1 h değeri, Fp, n p,0.95 değeri ile kıyaslanabilir. ˆβ vektörü içinde hangi bileşenin ne kadar etkilendiğini gösteren ölçüt ( DFBETAS ) j, ± i değerleridir. DF kısaltması difference between the result with x i and without x i ifadesinden gelmektedir. ( DFBETAS ) j, i ± Değerleri i. gözleminin ˆβ tahmin vektöründeki ˆ β j ( j = 1,,..., n) bileşeni üzerindeki etkinliği ile ilgili bir ölçüt ( DFBETAS ) j, ± i değeridir. ˆ β ˆ β ( DFBETAS) j, ± i = ˆ σ c j j,( i) ( i) r ' r AKT 1 ˆ σ = =, c: ( X ' X ) matrisinin i. köşegen elemeanı n p n p

Welsch-Kuh Uzaklığı Welsch-Kuh uzaklığı i. gözlemin modelde bulunup bulunmamasına bakarak, ' bağımlı değişkenin tahmin edilen Yˆ = x ˆ β ( j = 1,,..., n) değeri üzerindeki etkisi ile ilgili bir ölçüttür. ' x ˆ ˆ j ( β β( i) ) WK j, i =, j = 1,,,,,, n ˆ σ h ( i) jj j j olmak üzere, WK j, i WKi, i olduğundan i. gözlemin etkili olup olmadığını görmek için WK i, i = x ( ˆ β ˆ β ) ' i ˆ σ ( i) ( i) h değerinin hesaplanması yetmektedir. Bu değer, p / n değeri ile kıyaslanabilir. WKi, i > p / n olan i. gözlem, bağımlı değişkenin Y ˆi tahmini için etkin gözlem olarak nitelendirilebilir. Welsch-Kuh uzaklığı DFFIT olarak da isimlendirilmektedir. WK j, i değerini, ± biçiminde gösterelim. ( DFFITS ) j i ( DFFITS ) j, ± i = x ( ˆ β ˆ β ) ' i ˆ σ ( i) ( i) h

Örnek: (J.J.Faraway (005) Linear Models with R, sayfa 54)

> library(faraway);data(savings);attach(savings);savings sr pop15 pop75 dpi ddpi Australia 11.43 9.35.87 39.68.87 Austria 1.07 3.3 4.41 1507.99 3.93 Belgium 13.17 3.80 4.43 108.47 3.8 Bolivia 5.75 41.89 1.67 189.13 0. Brazil 1.88 4.19 0.83 78.47 4.56 Canada 8.79 31.7.85 98.88.43 Chile 0.60 39.74 1.34 66.86.67 China 11.90 44.75 0.67 89.5 6.51 Colombia 4.98 46.64 1.06 76.65 3.08 Costa Rica 10.78 47.64 1.14 471.4.80 Denmark 16.85 4.4 3.93 496.53 3.99 Ecuador 3.59 46.31 1.19 87.77.19 Finland 11.4 7.84.37 1681.5 4.3 France 1.64 5.06 4.70 13.8 4.5 Germany 1.55 3.31 3.35 457.1 3.44 Greece 10.67 5.6 3.10 870.85 6.8 Guatamala 3.01 46.05 0.87 89.71 1.48 Honduras 7.70 47.3 0.58 3.44 3.19 Iceland 1.7 34.03 3.08 1900.10 1.1 India 9.00 41.31 0.96 88.94 1.54 Ireland 11.34 31.16 4.19 1139.95.99 Italy 14.8 4.5 3.48 1390.00 3.54 Japan 1.10 7.01 1.91 157.8 8.1 Korea 3.98 41.74 0.91 07.68 5.81 Luxembourg 10.35 1.80 3.73 449.39 1.57 Malta 15.48 3.54.47 601.05 8.1 Norway 10.5 5.95 3.67 31.03 3.6 Netherlands 14.65 4.71 3.5 1740.70 7.66 New Zealand 10.67 3.61 3.17 1487.5 1.76 Nicaragua 7.30 45.04 1.1 35.54.48 Panama 4.44 43.56 1.0 568.56 3.61 Paraguay.0 41.18 1.05 0.56 1.03 Peru 1.70 44.19 1.8 400.06 0.67 Philippines 1.78 46.6 1.1 15.01.00 Portugal 1.49 8.96.85 579.51 7.48 South Africa 11.14 31.94.8 651.11.19 South Rhodesia 13.30 31.9 1.5 50.96.00 Spain 11.77 7.74.87 768.79 4.35 Sweden 6.86 1.44 4.54 399.49 3.01 Switzerland 14.13 3.49 3.73 630.96.70 Turkey 5.13 43.4 1.08 389.66.96 Tunisia.81 46.1 1.1 49.87 1.13 United Kingdom 7.81 3.7 4.46 1813.93.01 United States 7.56 9.81 3.43 4001.89.45 Venezuela 9. 46.40 0.90 813.39 0.53 Zambia 18.56 45.5 0.56 138.33 5.14 Jamaica 7.7 41.1 1.73 380.47 10.3 Uruguay 9.4 8.13.7 766.54 1.88 Libya 8.89 43.69.07 13.58 16.71 Malaysia 4.71 47.0 0.66 4.69 5.08

Matlab: >> veri=[11.43 9.35.87 39.68.87 1.07 3.3 4.41 1507.99 3.93 13.17 3.80 4.43 108.47 3.8 5.75 41.89 1.67 189.13 0. 1.88 4.19 0.83 78.47 4.56 8.79 31.7.85 98.88.43 0.60 39.74 1.34 66.86.67 11.90 44.75 0.67 89.5 6.51 4.98 46.64 1.06 76.65 3.08 10.78 47.64 1.14 471.4.80 16.85 4.4 3.93 496.53 3.99 3.59 46.31 1.19 87.77.19 11.4 7.84.37 1681.5 4.3 1.64 5.06 4.70 13.8 4.5 1.55 3.31 3.35 457.1 3.44 10.67 5.6 3.10 870.85 6.8 3.01 46.05 0.87 89.71 1.48 7.70 47.3 0.58 3.44 3.19 1.7 34.03 3.08 1900.10 1.1 9.00 41.31 0.96 88.94 1.54 11.34 31.16 4.19 1139.95.99 14.8 4.5 3.48 1390.00 3.54 1.10 7.01 1.91 157.8 8.1 3.98 41.74 0.91 07.68 5.81 10.35 1.80 3.73 449.39 1.57 15.48 3.54.47 601.05 8.1 10.5 5.95 3.67 31.03 3.6 14.65 4.71 3.5 1740.70 7.66 10.67 3.61 3.17 1487.5 1.76 7.30 45.04 1.1 35.54.48 4.44 43.56 1.0 568.56 3.61.0 41.18 1.05 0.56 1.03 1.70 44.19 1.8 400.06 0.67 1.78 46.6 1.1 15.01.00 1.49 8.96.85 579.51 7.48 11.14 31.94.8 651.11.19 13.30 31.9 1.5 50.96.00 11.77 7.74.87 768.79 4.35 6.86 1.44 4.54 399.49 3.01 14.13 3.49 3.73 630.96.70 5.13 43.4 1.08 389.66.96.81 46.1 1.1 49.87 1.13 7.81 3.7 4.46 1813.93.01 7.56 9.81 3.43 4001.89.45 9. 46.40 0.90 813.39 0.53 18.56 45.5 0.56 138.33 5.14 7.7 41.1 1.73 380.47 10.3 9.4 8.13.7 766.54 1.88 8.89 43.69.07 13.58 16.71 4.71 47.0 0.66 4.69 5.08 ]

> pairs(savings)

R: > g = lm(sr~pop15 + pop75 + dpi + ddpi, savings) > plot (fitted (g), residuals (g), xlab="fitted", ylab="residuals") > abline (h=0)

> plot (fitted (g), abs (residuals (g)),xlab="fitted", ylab=" Residuals ") > plot(savings$pop15, residuals(g),xlab="population under 15", ylab="residuals")

> plot(savings$pop75, residuals(g), xlab="population over 75", ylab="residuals") > data(gala) > gg <- lm(species~., gala) > plot(fitted(gg), residuals(gg)) > gs <- lm (sqrt (Species) ~., gala) > plot (fitted (gs), residuals (gs))!! Değişen varyans söz konusu.

>qqnorm(residuals(g),ylab="artıklar") > qqline(residuals(g)) > hist(residuals(g)) Devamı (J.J.Faraway (005) Linear Models with R, sayfa 61)