ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Benzer belgeler
İÇİNDEKİLER 1. GİRİŞ...

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Matris Cebiriyle Çoklu Regresyon Modeli

2. BASİT DOĞRUSAL REGRESYON 12

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

QUANTILE REGRESYON * Quantile Regression

Ekonometri I VARSAYIMLARI

İstatistik ve Olasılık

İçindekiler. Ön Söz... xiii

ortalama ve ˆ ˆ, j 0,1,..., k

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

VEKTÖR UZAYLARI 1.GİRİŞ

İstatistik ve Olasılık

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

ÖZDEĞERLER- ÖZVEKTÖRLER

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

İleri Diferansiyel Denklemler

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

7. Ders Genel Lineer Modeller Singüler Modeller, Yanlış veya Bilinmeyen Kovaryanslar, Đlişkili Hatalar

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

4. BÖLÜM DOĞRUSAL DENKLEM SİSTEMLERİ

Appendix C: İstatistiksel Çıkarsama

MAK 210 SAYISAL ANALİZ

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

Mühendislikte İstatistiksel Yöntemler

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

ii) S 2LW 2WH 2LW 2WH S 2WH 2LW S 3( x 1) 5( x 2) 5 3x 3 5x x Maliye Bölümü EKON 103 Matematik I / Mart 2018 Proje 2 CEVAPLAR C.1) C.

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

LOJİSTİK REGRESYON ANALİZİ

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

SIRADAN EN KÜÇÜK KARELER (OLS)

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Lineer Denklem Sistemleri Kısa Bilgiler ve Alıştırmalar

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Özdeğer ve Özvektörler

1: DENEYLERİN TASARIMI VE ANALİZİ...

Nedensel Modeller Y X X X

İstatistik ve Olasılık

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ

BÖLÜM 12 STUDENT T DAĞILIMI

Yrd. Doç. Dr. A. Burak İNNER

x 1,x 2,,x n ler bilinmeyenler olmak üzere, doğrusal denklemlerin oluşturduğu;

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

Bekleme Hattı Teorisi

ÇOKLU BAĞINTI VE LIU KESTİRİCİSİYLE ENFLASYON MODELİ İÇİN BİR UYGULAMA

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

DOĞRUSAL ZAMAN SERİSİ MODELLERİ. Durağan ARIMA Modelleri: Otoregresiv Modeller AR(p) Süreci

Bir Normal Dağılım Ortalaması İçin Testler

MAK 210 SAYISAL ANALİZ

DİNAMİK PANEL VERİ MODELLERİ. FYT Panel Veri Ekonometrisi 1

Appendix B: Olasılık ve Dağılım Teorisi

İSTATİSTİKSEL PROSES KONTROLÜ

Farklı iki ilaç(a,b) kullanan iki grupta kan pıhtılaşma zamanları farklı mıdır?

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

SONLU FARKLAR GENEL DENKLEMLER

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

TANIMLAYICI İSTATİSTİKLER

Lineer Bağımlılık ve Lineer Bağımsızlık

OLASILIK ve İSTATİSTİK Hipotez Testleri

Yrd. Doç. Dr. A. Burak İNNER

BÖLÜM 1: YAşAM ÇÖzÜMLEMEsİNE GİRİş... 1

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

KUADRATİK FORM. Tanım: Kuadratik Form. Bir q(x 1,x 2,,x n ) fonksiyonu

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

13. Karakteristik kökler ve özvektörler

ÖABT Lineer Cebir KONU TESTİ Matris Cebiri

Lineer Denklem Sistemleri

13. Olasılık Dağılımlar

Genel Graf Üzerinde Mutlak 1-merkez

Jeodezide Yaklaşım Yöntemleri: Enterpolasyon ve Kollokasyon

Nazım K. Ekinci Matematiksel İktisat Notları ax 1 + bx 2 = α cx 1 + dx 2 =

İstatistik ve Olasılık

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

Tesadüfi Değişken. w ( )

İstatistiksel Kavramların Gözden Geçirilmesi

Transkript:

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ Hasan ERTAŞ ÇOKLU LİNEER REGRESYONDA SAPAN DEĞERLERİN BELİRLENMESİ İÇİN TANILAMA ÖLÇÜLERİ İSTATİSTİK ANABİLİM DALI ADANA, 2011

ÖZ YÜKSEK LİSANS TEZİ ÇOKLU LİNEER REGRESYONDA SAPAN DEĞERLERİN BELİRLENMESİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ İSTATİSTİK ANABİLİM DALI Danışman :Prof. Dr. Selahattin KAÇIRANLAR Yıl: 2011, Sayfa: 113 Jüri :Prof. Dr. Selahattin KAÇIRANLAR :Prof. Dr. Sadullah SAKALLIOĞLU :Yrd. Doç. Dr. Gülsen KIRAL Çoklu lineer regresyonda; bağımsız değişkenler arasında yaklaşık bir lineer bağımlılık olması (çoklu iç ilişki problemi) ve sapan değerlerin varlığı durumunda EKK analizi uygun ve tutarlı sonuçlar vermemektedir. Literatürde; veride çoklu iç ilişki olması durumunda; çoklu iç ilişkinin etkilerini hafifletmek için EKK kestiricisine alternatif olarak önerilen çok sayıda yanlı kestiriciler vardır. Yanlı kestiricilerin bir kısmını içine alan bir sınıf, önce Lee ve Birch (1988) tarafından verilmiştir. Daha sonra, Topçubaşı (2001), Liu ve genelleştirilmiş Liu kestiricilerinin bu sınıfa dahil edilebileceğini göstermiştir. Bu çalışmada; modified ridge ve modified Liu kestiricilerinin bu sınıfa dahil edilebileceği gösterilmektedir. Yanlı kestiriciler için tanılama ölçüleri üzerinde çok az çalışma vardır. Bu çalışmada; EKK regresyon sonuçları üzerinde gözlem (veya gözlemlerin) etkisini belirlemek için verilen klasik tanılama ölçülerinden yararlanarak, yanlı sınıf kestiricileri için tanılama ölçüleri verilmektedir. Anahtar Kelimeler: Çoklu iç ilişki, Tanılama Ölçüleri, Sapan Değer, Yanlı Kestiriciler I

ABSTRACT MSc THESIS DIAGNOSTİCS MEASURES FOR IDENTIFICATION OF OUTLIERS IN MULTIPLE LINEAR REGRESSION Hasan ERTAŞ ÇUKUROVA UNIVERSITY INSTITUTE OF NATURAL AND APPLIED SCIENCES DEPARTMENT OF STATISTICS Supervisor :Prof. Dr. Selahattin KAÇIRANLAR Year: 2011, Pages: 113 Jury :Prof. Dr. Selahattin KAÇIRANLAR : Prof. Dr. Sadullah SAKALLIOĞLU :Asst. Prof. Gülsen KIRAL In multiple linear regression; ordinary least squares analysis does not give satisfactory and consistent results in the presence of linear depency among predictors (multicollinearity) and existence of outliers in data. In the literature, several biased estimator have been proposed as alternatives to the least squares estimator in the presence of multicollinearity to mitigate the effect of multicollinearity in the analysis. A class that includes a part of biased estimator has been proposed by Lee and Birch (1988). After that, it was shown that Liu and generalized Liu estimators can also be included in this class by Topçubaşı (2001). In this study, it is shown that modified ridge and modified Liu estimators can also be included in this class. Little work has been done on the use of diagnostic measures for biased estimator. In this thesis, diagnostic measures are also defined for this class of biased estimator by using classical diagnostics measures given for assessing the influence of observation on least squares regression results. Key Words: Multicollinearity, Diagnostics Measures, Outliers, Biased Estimator II

TEŞEKKÜR Tüm çalışmalarımda beni yönlendiren danışmanım Sayın Prof. Dr. Selahattin KAÇIRANLAR a çalışmalarım boyunca değerli zamanını bana ayıran Sayın Arş. Gör. Murat ERİŞOĞLU na, Sayın Arş. Gör. Nazif Çalış ve Çukurova Üniversitesi İstatistik Bölüm ünün diğer öğretim elemanlarına, manevi desteğinde dolayı eşim Esra Hanım a ve tüm hayatım boyunca maddi-manevi tüm desteklerinden dolayı aileme teşekkür ederim. III

İÇİNDEKİLER SAYFA ÖZ... I ABSTRACT... II TEŞEKKÜR... III İÇİNDEKİLER.....IV ÇİZELGELER DİZİNİ... VIII ŞEKİLLER DİZİNİ...X SİMGELER VE KISALTMALAR... XII 1. GİRİŞ... 1 1.1. Temel Kavramlar... 1 1.2. Çoklu İç ilişki... 5 1.2.1. Çoklu İç İlişkinin Nedenleri... 6 1.2.2. Çoklu İç İlişkinin EKK Üzerindeki Etkileri... 6 1.2.3. Çoklu İç İlişkinin Belirlenmesi... 8 1.2.4. Çoklu İç İlişki İçin Çözüm Yöntemleri... 10 1.3. Sapan Değer... 11 1.3.1. Maskeleme(Masking) ve Süpürme( Swamping) Problemi... 13 2. EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ... 15 2.1. Bir Gözlemin Regresyon Doğrusu Üzerindeki Etkisi... 15 2.1.1. X- Yönündeki Sapan Değerleri Belirleyen Ölçüler... 15 2.1.1.1. Şapka Matrisi... 15 2.1.1.2. Ağırlıklı Uzaklık Kareler Toplamı... 16 2.1.1.3. Mahalanobis Uzaklığı... 17 2.1.2. y- Yönündeki Sapan Değerleri Belirleyen Ölçüler... 17 2.1.2.1. Rezidüler... 18 2.1.2.2. Ortalama Değişim (Mean-Shift ) Aykırı Değer Modellenmesi 20 2.1.3. X ve y- Yönündeki Sapan Değerleri Belirleyen Ölçüler... 21 2.1.4. Etkili Gözlemleri Belirleyen Ölçüler... 22 2.1.4.1. DFFITS Ölçüsü... 23 2.1.4.2. Welsch Uzaklığı... 23 IV

2.1.4.3. DFBETA ve DFBETAS Ölçüsü... 24 2.1.4.4. Cook uzaklığı... 24 2.1.4.5. Düzeltilmiş Cook Uzaklığı... 25 2.1.4.6. COVRATIO ve FVARATIO (Varyans Oranı) Ölçüsü... 26 2.1.4.7. Andrews-Pregibon İstatistiği... 28 2.2. Birden Fazla Gözlemin Regresyon Doğrusu Üzerindeki Etkisi... 29 2.2.1. Cook Uzaklığı... 29 2.2.2. MDFFITS Ölçüsü... 30 2.2.3. DFFITS Ölçüsü... 30 2.2.4. W Ölçüsü... 31 2.2.5. COVRATIO Ölçüsü... 31 2.2.6. Andrews-Pregibon İstatistiği... 32 3.YANLI KESTİRİCİLER... 33 3.1. Yanlı Kestirim Yöntemleri... 33 3.1.1. Ridge Kestiricisi... 34 3.1.1.1. Ridge Kestiricisinin Bazı Özellikleri... 35 3.1.1.2. k Yanlılık Parametresinin Seçimi... 37 3.1.2. Genelleştirilmiş Ridge Kestiricisi... 38 3.1.3. Modified Ridge Kestiricisi... 39 3.1.4. Temel Bileşenler Kestiricisi... 40 3.1.5. Genelleştirilmiş Ters (Ondalık Rank ) Kestiricisi... 42 3.1.6. Stein Kestiricisi... 44 3.1.7. Liu ve Genelleştirilmiş Liu Kestiricileri... 45 3.1.7.1. Liu Kestiricisinin Bazı Özellikleri... 46 3.1.8. Modified Liu Kestiricisi... 47 3.2. Yanlı Kestiricilerin Bir Sınıfı... 48 3.2.1. Genel Yanlı Sınıf İçinde Yer Alan Kestiriciler... 51 3.2.2. Yanlılık Parametresi nin Hesaplanması... 60 4. GENEL YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ... 63 4.1. Genel Yanlı Kestiriciler İçin Tanılama Ölçüleri... 63 4.1.1. Genel Yanlı Sınıf Kestiricileri İçin Rezidü ve Leverage Ölçüleri... 63 V

4.1.2. Genel Yanlı Sınıf Kestiricileri İçin Etki Ölçüleri... 66 4.1.3. Genel Yanlı Sınıf İçin Tanılama Ölçülerine Farklı Bir Yaklaşım... 71 5. UYGULAMA... 75 5.1. Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrufu Verisi... 75 5.2. Bir Sapan Gözlemin Regresyon Doğrusu Üzerindeki Etkisinin İncelenmesi.... 78 5.2.1. Sapan, Aykırı Değer ve Etkili Gözlem Ölçüleri... 78 5.2.2. Tek Sapan Gözlemlerin Grafiklerle İncelenmesi... 84 5.3. Tek Sapan Gözlemler İçin Genel Sonuç... 86 5.4. Longley Verisi... 88 5.4.1. Longley Veri Kümesi İçin Çoklu İç İlişkinin Belirlenmesi... 89 5.5. Ridge, Modified Ridge, Liu ve Modified Liu Kestiriciler İçin Regresyon Sonuçları ve Tanılama Ölçüleri... 91 5.5.1. Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri. 91 5.5.2.Modified Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri.. 94 5.5.3. Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri... 96 5.5.4.Modified Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri..... 99 5.5.5.EKK Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri...101 6. SONUÇLAR VE ÖNERİLER...105 KAYNAKLAR...107 ÖZGEÇMİŞ...113 VI

VII

ÇİZELGELER DİZİNİ SAYFA Çizelge 3.1. Genel Yanlı Sınıf İçinde Yer Alan Kestiriciler ve Yanlılık Parametreleri... 59 Çizelge 5.1. Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrufu... 76 Çizelge 5.2. EKK Kestiricisi İçin Regresyon Sonuçları... 77 Çizelge 5.3. Bazı ölçüler İçin Kritik Değerler... 78 Çizelge 5.4. Aykırı Değerlerle İlgili İstatistikler... 80 Çizelge 5.5. X- yönündeki Sapan Değerlerle İlgili İstatistikler... 81 Çizelge 5.6. Etkili Gözlemlerle İlgili İstatistikler... 82 Çizelge 5.7. Etkili Gözlemlerle İlgili İstatistikler... 83 Çizelge 5.8. Tek Sapan Gözlemler İçin İnceleme... 86 Çizelge 5.9. Longley Verisi... 89 Çizelge 5.10. Longley Verisi İçin Korelasyon Matrisi... 90 Çizelge 5.11. Tablo 5.11. Longley Verisi İçin Varyans Şişirme Faktörü, Özdeğerler ( ) ve Koşul İndeksi ( ) Değerleri... 91 Çizelge 5.12. Ridge Kestiricisi İçin Tanılama Ölçüleri... 92 Çizelge 5.13. Modified ridge Kestiricisi İçin Tanılama Ölçüleri... 95 Çizelge 5.14. Liu Kestiricisi İçin Tanılama Ölçüleri... 97 Çizelge 5.15. Modified Liu Kestiricisi İçin Tanılama Ölçüleri... 100 Çizelge 5.16. EKK Kestiricisi İçin Tanılama Ölçüleri... 102 Çizelge 5.17. EKK, Ridge, Modified ridge, Liu ve Modified Liu Kestiricilerinin Cook Uzaklığı... 102 VIII

IX

ŞEKİLLER DİZİNİ SAYFA Şekil 1.1. Yinelemeli Regresyon Yönteminin Akış Diyagramı İle Gösterimi... 4 Şekil 1.2. Sapan Değer Türleri Arasındaki Farklılıkları Gösteren Grafiksel Gösterim... 12 Şekil 5.1. Kestirilmiş Değer-Rezidü Grafiği... 84 Şekil 5.2. Leverage- Studentized Rezidü Grafiği... 85 Şekil 5.3. Cook Welsch ve Kuh Uzaklığı Grafiği... 85 Şekil 5.4. Düzeltilmiş Cook -Welsch Uzaklığı... 86 Şekil 5.5. Ridge Kestiricisi İçin Değerlerine Göre Cook Uzaklığı... 93 Şekil 5.6. Ridge Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı... 93 Şekil 5.7. Modified ridge Kestiricisi İçin Değerlerine Göre Cook Uzaklığı... 95 Şekil 5.8. Modified ridge Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı... 96 Şekil 5.9. Liu Kestiricisi İçin Değerlerine Göre Cook Uzaklığı... 98 Şekil 5.10. Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı... 98 Şekil 5.11. Modified Liu Kestiricisi İçin Değerlerine Göre Cook Uzaklığı... 100 Şekil 5.12. Modified Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı... 101 X

XI

SİMGELER VE KISALTMALAR EKK : En Küçük Kareler MSE : Hata Kareler Ortalaması SSE : Rezidü Kareler Toplamı MMSE : Matris Hata Kareler Ortalaması SMSE : Skaler Hata Kareler Ortalaması XII

XIII

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ REGRESYON ANALİZİNDE AYKIRI DEĞERLERİN BELİRLENMESİ Hasan ERTAŞ YÜKSEK LİSANS TEZİ İSTATİSTİK ANABİLİM DALI Bu Tez../../2011 Tarihinde Aşağıdaki Jüri Üyeleri Tarafından Oybirliği/Oyçokluğu ile Kabul Edilmiştir.... Prof. Dr. Selahattin KAÇIRANLAR DANIŞMAN.. Prof. Dr. Sadullah SAKALLIOĞOLU ÜYE Yrd. Doç. Dr. Gülsen KIRAL ÜYE Bu Tez Enstitümüz İstatistik Anabilim Dalında hazırlanmıştır. Kod No: Prof. Dr. İlhami YEĞİNGİL Enstitü Müdürü Not: Bu tezde kullanılan özgün ve başka kaynaktan yapılan bildirişlerin, çizelge ve fotoğrafların kaynak gösterilmeden kullanımı, 5846 sayılı Fikir ve Sanat Eserleri Kanunundaki hükümlere tabidir.

1.GİRİŞ Hasan ERTAŞ 1.GİRİŞ 1.1. Temel Kavramlar Regresyon analizi değişkenler arası ilişkiyi inceleyen ve modelleyen istatistiksel bir tekniktir. İlişki bir veya birden fazla açıklayıcı değişken ve yanıt değişkenin bir denklemi olarak ifade edilir. Yanıt değişken y, açıklayıcı değişken,,, ile gösterilsin. y ile,,, arasındaki gerçek ilişkiye =,,, + regresyon modeli ile yaklaşırız. Burada,,,, y ile,,, arasındaki ilişkiyi tanımlayan fonksiyon ve, modelin veriye uyumundan kaynaklanan hata terimidir. Regresyon modelleri; verinin tanımlanması, parametre tahmini, ön tahmin, kontrol amaçlı kullanılabilir. Bir regresyon denklemi bir tek açıklayıcı değişken içeriyorsa basit regresyon, birden fazla açıklayıcı değişken içeriyorsa çoklu regresyon olarak adlandırılır. Çoklu doğrusal(lineer) regresyon modeli; = + (1.1) formunda olup ve n; gözlem sayısı, k; açıklayıcı değişken sayısı, = +1 olmak üzere; y, 1 tipinde yanıt değişkenin vektörü,, tipinde açıklayıcı değişkenlerin matrisi, ; 1 tipinde bilinmeyen parametrelerin vektörü ve, 1 tipinde rastgele hataların vektörüdür. En Küçük Kareler Yöntemi (EKK): (1.1) ile verilen çoklu lineer regresyon modelinin parametrelerinin EKK yöntemi ile tahmin edilmesindeki amaç gözlenen (, ) noktalarını en iyi temsil edecek regresyon doğrusunun bulunmasıdır. Bu nedenle EKK yönteminde; (1.1) çoklu doğrusal modelindeki hata terimlerinin kareleri toplamını minumum yapacak parametre tahminleri yapılır. Yani, çoklu lineer regresyon modeli; 1

1.GİRİŞ Hasan ERTAŞ = + ve parametresinin EKK kestiricisi olmak üzere; ( ) = = = ( ) ( ) şeklinde verilen ( ) fonksiyonunu minumum yapan; =( ) (1.2) ifadesi elde edilir. Gözlenen değerlerine karşılık gelen uydurulmuş değerlerin vektörü (fitted) = = ( ) = = ( ) matrisi şapka matrisi olarak adlandırılır. Gözlenen değerleri ve karşılık gelen uydurulmuş değerleri ve gözlenen değerlerinin ortalaması olmak üzere; =, =1,2,, farkına rezidü(artık), = ( ) =, ifadesine rezidü kareler toplamı, = ( ), ifadesine regresyon kareler toplamı, = ( ), ifadesine genel kareler toplamı, denir. = =, ifadesine hata kareler ortalaması EKK kestiricisi nın önemli istatistiksel özellikleri aşağıda verilmiştir. 2

1.GİRİŞ Hasan ERTAŞ 1) Yansız bir tahmin edicidir ( = ). 2) En iyi lineer yansız tahmin edicidir (Gauss-Markov Teoremi) (Yani diğer yansız tahmin ediciler arasında minimum varyansa sahiptir). EKK sonuçları ve bunlara dayalı istatistiksel analiz bir takım varsayımları gerektirir. Bu varsayımlar şu şekildedir; y, yanıt değişkeni, açıklayıcı değişkenin lineer fonksiyonu olmalı, Hata terimi, sıfır ortalamalı ve varyanslı normal dağılıma sahip olmalı, ( ) =0, ( ) =, ~ (0, ) Hata terimleri birbiriyle ilişkisiz olmalı, =0, = [,,, ] olmak üzere;,,, açıklayıcı değişkenleri rastgele değişken olmamalı,,,, açıklayıcı değişkenleri lineer bağımsız olmalıdır, Verilen varsayımların sağlanmaması durumunda EKK yöntemi ile tahmin edilen regresyon parametrelerinin güvenirliğinin bozulacağı bilinmektedir. Dolayısıyla eldeki verilere uygun regresyon modelinin kurulması ve model uygunluğunun araştırılması regresyon analizinin temel konularından biridir. Regresyon analizi bir dizi analitik tekniklerin kullanımı olup, bu analiz yinelemeli bir süreç olarak değerlendirilir. Bu yinelemeli süreç bir şema ile verilebilir (Chatterjee ve Hadi, 1988). 3

1.GİRİŞ Hasan ERTAŞ Başlama Problemin matematiksel olarak belirlenmesi 1. Uygun değişken kümesi seç 2. Modelin formunu seç 3. Uydurma yöntemini seç Modeli Uydurma 1.EKK metodunun uygulanması Geçerli varsayımlar. 1. Rezidü plotları 2. Etkili gözlemlerin belirlenmesi 3. Sapan değerler için test vb HAYIR Tamam EVET Uygun Modelin Belirlenmesi 1.İyi bir uydurma için test HAYIR Tamam Dur EVET Şekil 1.1. Yinelemeli Regresyon Yönteminin Akış Diyagramı İle Gösterimi 4

1.GİRİŞ Hasan ERTAŞ Akış diyagramı incelendiğinde; problemin matematiksel olarak ifade edilmesi aşamasında başlangıç olarak uygun değişken kümesinin belirlenmesi gerekmektedir. Çünkü lineer regresyonda ilişkili değişkenlerin aynı anda modelde yer alması durumunda, daha önce verilen matrisine ilişkin varsayımlardan birisi sağlanmamış olur ki bu sağlıklı tahmin ediciler elde edilmesini engeller. Bu nedenden dolayı model kurulmadan önce değişkenler arasındaki ilişki incelenmelidir. Bunun ardından eğer değişkenler arasında ciddi bir lineer ilişki söz konusu ise, EKK kestiricisi yerine başka tahmin yöntemleri kullanılmalıdır. Eğer değişkenler arasında ciddi bir lineer ilişki söz konusu değilse, EKK kestiricisi kullanılarak model oluşturulup, uygunluğu test edilmelidir. 1.2. Çoklu İç İlişki (Multicolinearity) (1.1) ifadesindeki çoklu lineer regresyon modelinde, genellikle açıklayıcı değişkenlerin bağımsız olduğu varsayılır. Fakat uygulamada, lineer ilişki olabilir. Bu durumda açıklayıcı değişkenler arasında lineer bağımsızlık varsayımı geçerli olmaz. Bu da çoklu iç ilişki problemine neden olur., matrisinin j-inci kolon vektörü( = [,,, ]) olsun. =0 (1.3) olacak şekilde 0, =1,2,, sabitleri varsa,,, vektörleri lineer bağımlıdır. Eğer açıklayıcı değişkenler arasında bir lineer ilişki yoksa, açıklayıcı değişkenler ortogonaldır denir. X'X = I iken X matrisi ortogonal açıklayıcı değişkenleri içerir. in kolonlarının bir kümesi için (1.3) sağlanıyorsa "tam çoklu iç ilişki vardır" (Silvey, 1969). Bu durumda matrisinin rankı p den küçük olur ve matrisi tersinir olmayacaktır. Buna kötü koşulluluk problemi denir. Fakat (1.3) in kolonlarının bazı alt kümeleri için yaklaşık olarak doğru ise "yaklaşık çoklu iç ilişki" vardır. 5

1.GİRİŞ Hasan ERTAŞ 1.2.1. Çoklu İç İlişkinin Nedenleri Çoklu iç ilişkinin birçok nedeni olabilir (Judge ve ark., (1985), Montgomery ve Peck (1992)). Bunlardan bazıları şu şekildedi: 1) Uygulanan veri toplama metodu: Araştırmacının (1.3) ile tanımlı bir bölgenin alt uzayından örneklem almış olması çoklu iç ilişkiye neden olur. 2) Modeldeki ve kitledeki zorunluluklar: Kitledeki zorunluluklar daha çok açıklayıcı değişkenlerin kimyasal veya üretim süreçlerinde ortaya çıkar. Örneğin, bir kimyasal reaksiyonun gerçeklenmesi için belli içeriklerin sabit oranlarda olması gibi. 3) Modelin belirlenmesi: X açıklayıcı değişkenlerinin değişim aralığı küçük iken bir regresyon modeline polinom terimi eklenmesi çoklu iç ilişki problemine neden olur. 4) Modelin aşırı tanımlanması: Gözlemlerden çok açıklayıcı değişkenlerin olduğu modellere aşırı tanımlanmış model denir ( > ). Daha çok tıbbi araştırmalarda ve ekonometrik modellerde ortaya çıkar. Bu gibi durumlarda açıklayıcı değişkenlerden bazılarını atmak gerekir. Değişken çıkarılması, hem analizi kolaylaştırmak hem de var olan iç ilişkiyi indirgemek için kullanılabilecek bir diğer yöntemdir. 1.2.2. Çoklu İç İlişkinin EKK Üzerindeki Etkileri 1) Regresyon katsayılarının EKK kestiricilerinin varyansını artırır; = (, ) özel halini ele alalım ( =2). Bu durumda = ( ) = şeklinde ifade edilir. ; ile arasındaki korelasyon katsayısı = ( ) olduğundan 1 iken büyüyecektir. Dolayısıyla ve güçlü bir çoklu iç ilişki problemi oluşacaktır. Bu durumu genelleştirecek olursak, yani p açıklayıcı değişken olması durumunda ( ) matrisinin köşegen elemanları ler; =1,2,, 6

1.GİRİŞ Hasan ERTAŞ = şeklinde ifade edilir. Burada, açıklayıcı değişkeninin, geriye kalan 1 açıklayıcı değişken üzerine regres edilmesiyle elde edilen çoklu belirleyicilik katsayısıdır. Dolayısıyla ve diğer açıklayıcı değişkenler arasında bir lineer ilişki varsa bu durum yine varyans artırıcı bir etki yapacaktır. Varyansın büyük olması ise sonuçların örneklemden örnekleme değişebilirliği anlamına gelecektir. Bu durumda da kestiricinin güvenirliğini azaltacaktır. 2) ile parametresi arasındaki uzaklığı artırır; matrisinin özdeğerleri 0 olmak üzere çoklu iç ilişki problemi matrisinin öz değerlerinin küçük olmasına neden olacaktır. Dolayısıyla = ( ) = ( ) = (1.4) ile verilen ( ) yi yani gerçek parametre ile EKK kestiricisi arasındaki uzaklığın beklenen değerini arttıracaktır. 3) nın boyunun (normunun) büyümesine neden olur; (1.4) ile verilen ( ) nin büyük olması durumda kestirilmiş parametrenin normunun beklenen değeri; = + ( ) şeklinde ifade edilir. Böylece nın normu gerçek parametreden daha büyük olacaktır. Kötü koşulluluk arttıkça kestirilmiş parametrelerin normu daha da büyüyecektir. Sonuç olarak çoklu iç ilişki problemi, EKK yöntemi model parametrelerinin kötü kestirimlerinin elde edilmesine neden olacaktır. 7

1.GİRİŞ Hasan ERTAŞ 1.2.3. Çoklu İç İlişkinin Belirlenmesi Çoklu iç ilişkinin belirlenmesi için çeşitli yöntemler vardır. Bunlardan bazıları aşığıda verilmiştir. Korelasyon Matrisinin İncelenmesi: matrisinin köşegen üzerinde bulunmayan incelenmesi çoklu iç ilişkinin belirlenmesini sağlar. ve açıklayıcı değişkenleri lineer bağımlı ise bire yakın olur. Basit korelasyon katsayısı nin incelenmesi sadece ikili açıklayıcı değişkenler arasındaki lineer bağımlılığı incelemede yararlıdır. Fakat ikiden fazla açıklayıcı değişkenler arasında lineer bağımlılık varsa uygun ölçü olmayabilir. Dolayısıyla açıklayıcı değişkenler arasında ikili lineer ilişkiden daha karışık bir durum söz konusu ise korelasyon matrisi çoklu iç ilişkinin belirlenmesinde yeterli bir ölçü olmayacaktır. Varyans Şişirme Faktörü(VIF): ( ) matrisinin j. köşegen elamanına j.varyans şişirme faktörü denir., nin diğer 1 açıklayıcı değişken üzerine olan modelinden çoklu belirleyicilik katsayısı olmak üzere; = = 1 olarak ifade edilir. diğer açıklayıcı değişkenlerin bir alt kümesi ile yaklaşık olarak lineer bağımlı ise bire yaklaşır ve büyür. Herhangi bir değeri 10 dan büyükse çoklu iç ilişki problemi vardır denir. matrisinin karakteristik köklerinin (özdeğerlerinin) analizi: matrisinin özdeğerleri 0 olmak üzere bir ya da daha fazla özdeğerin küçük (sıfıra yakın) olması veride çoklu iç ilişki olduğunu gösterir (Vinod ve Ullah, 1981). ve matrisinin minumum ve maksimum özdeğerleri olmak üzere; 8

1.GİRİŞ Hasan ERTAŞ = olarak tanımlanan koşul sayısı çoklu iç ilişki problemini belirlemede kullanılır. <100 çoklu iç ilişki yoktur 100 < <1000 orta şiddetli çoklu iç ilişki vardır 1000 şiddetli çoklu iç ilişki vardır. Koşul sayısı sık kullanılan ölçülerden biri olmakla birlikte, kolon ölçeklemesine duyarlıdır. Bu olumsuzluğu ortadan kaldırabilmek için koşul indeksi tanımlanmıştır. matrisinin koşul indeksi; =, =1,2,, olarak tanımlanır. Büyük koşul indeks sayısı ( 1000) deki lineer bağımlılığının büyüklüğünün bir ölçüsüdür. Ayrıca en büyük koşul indeksi koşul sayısıdır. Diğer Tanılama Yöntemleri: Çoklu iç ilişki bir çok yöntemle belirlenebilir. Bunlardan birisi matrisinin determinantıdır. Standartlaştırılmış formda 0 1 dir. =1 ise açıklayıcı değişkenler ortogonaldir aksine =0 ise tam çoklu iç ilişki vardır. sıfıra yaklaştıkça çoklu iç ilişkinin şiddeti artacaktır (Farrar ve Glauber, 1967). Ayrıca regresyon katsayılarının işaretlerinin ve büyüklüklerinin beklenenden farklı olması, açıklayıcı değişkenlerin eklenmesi veya çıkarılması ile regresyon katsayılarının kestirimlerinde büyük değişikliklere neden olması çoklu iç ilişkinin olduğunu gösterir. Bütün ölçüler içinde en yaygın kullanımı olanlar;, koşul sayısı ve koşul indeksleridir. Bu ölçüler ancak matrisinin tüm satırlarının eşit etkili olması durumunda sağlıklı sonuçlar verebilir. Üzerinde çalışılan veri kümesinde öyle 9

1.GİRİŞ Hasan ERTAŞ gözlem(ler) olabilir ki; bahsedilen bu ölçülere veride çoklu iç ilişki olmadığı halde varmış ya da çoklu iç ilişki olduğu halde yokmuş gibi sonuçlar verebilir. İşte bu tip gözlemlere çoklu iç ilişkide etkili gözlem(ler) denir. Analizde bu tip gözlemlerin varlığının araştırılması sağlıklı sonuçlar elde edebilmek için oldukça önemlidir. 1.2.4. Çoklu İç İlişki İçin Çözüm Yöntemleri Çoklu iç ilişki problemini ortadan kaldırmak için önerilen yöntemler genel olarak ek verinin toplanması, modelin yeniden belirlenmesi ve EKK den farklı tahmin yöntemlerinin kullanılmasıdır. Ek Verinin toplanması: Farar ve Glouber (1967) ve Silvey (1969) çoklu iç ilişki problemini ortadan kaldırmak için ek verinin toplanmasını önermişlerdir. Fakat ekonomik kısıtlamalardan veya sürecinin örnekleme için yeterince uzun bir işleyişe sahip olmamasından dolayı ek veri toplamak her zaman mümkün olmayabilir. Modelin Yeniden Belirlenmesi: Çoklu iç ilişkinin nedeni model seçiminden kaynaklanabilir, örneğin ilişkili açıklayıcı değişkenlerin kullanılması gibi. Bu gibi durumlarda ya açıklayıcı değişkenler yeniden tanımlanır ya da ilişkili açıklayıcı değişkenlerden biri çıkarılır. Fakat açıklayıcı değişkenlerden birinin çıkartılması modelin etkinliğini azaltabilir. Çünkü çoklu iç ilişki olsa bile değişkenler birbirini tam temsil etmeyebilirler (Lipovetsky ve Conklin, 2001). Açıklayıcı değişkenlerin her biri uyumda ve bağımlı değişkenin yapısını açıklamada özel bir role sahip olabilir. Alternatif Kestirim Yöntemlerinin Kullanılması: Regresyon analizinde, regresyon katsayılarının tahmini ile ilgileniyorsak EKK en klasik yöntemdir. EKK, yansız bir kestirici ve en iyi lineer yansız kestirici özelliği belli varsayımlar gerektiriyordu. Bunlardan en önemlisi açıklayıcı değişkenlerin lineer bağımsız oluşuydu, bunun sağlanmaması durumunda çoklu iç ilişki problemiyle karşılaşırız. Çoklu iç ilişki olması durumunda EKK hala yansızdır fakat varyansı çok büyüktür. Bu problemi ortadan kaldırmak için önerilen tahmin metotları 10

1.GİRİŞ Hasan ERTAŞ yanlı kestiricilerin ortaya çıkmasına ve bunların incelenmesine neden olmuştur. Üçüncü bölümde bazı yanlı kestiriciler ve onların özellikleri ele alınacaktır. 1.3. Sapan Değer (Outlier) Regresyon analizinde önemli bir varsayım da seçilen modelin verideki tüm gözlemler için uygun olmasıdır. Fakat uygulamada bir veya birden çok gözlem, verinin çoğunluğunun oluşturduğu modelden farklılık gösterir. En küçük kareler kestiricisi farklı davranan gözlemlere karşı çok hassas olduğundan, tüm gözlemlerin regresyon sonuçları üzerinde eşit etkili olması varsayımının geçerli olup olmadığının araştırılması önemlidir. Bu varsayımlardan tüm gözlemler güvenilir ve regresyon sonuçlarının belirlenmesinde yaklaşık olarak eşit etkiye sahiptir varsayımının sağlanmaması durumunda bu probleme neden olan gözlemlerin belirlenmesi; modelin uygunluğu, güvenirliği ve kararlılığı için gereklidir. Verilerde bir veya birden fazla gözlemlerin çıkarılması uydurulmuş modelde (kestirilmiş regresyon katsayıları, uydurulmuş değerler, t-testi, ) önemli değişikliklere neden oluyorsa bu tip gözlemlere etkili gözlemler (influential observations) denir. En genel manada verilerin homojen çoğunluğu tarafından önerilen modele uyumsuzluk gösteren gözlem veya gözlemlere sapan değer (outlier) denir. Sapan değerler regresyon analizi sonuçları üzerinde yaptıkları etkilere bağlı olarak; bağımlı değişken yönünde (y- yönünde) sapan değerler, bağımsız değişkenler yönünde (X-yönünde ) sapan değerler, hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler (XY-yönünde) ve etkili gözlemler (influential observations), olmak üzere dört grupta incelenir. 1. Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemlere y-yönünde sapan değerler denir. Regresyonda, y- ekseni yönünde sapan değerlere aykırı değer denir. 2. X-uzayında veri kümesinden uzakta bulunan noktalar, X-yönünde sapan değerler (high leverage points) denir. X- yönündeki sapan değerler ikiye ayrılırlar. Kötü (Bad leverage) kaldıraç noktası: Regresyon doğrusunun eğimini çok fazla değiştiren X- yönündeki sapan değerlere kötü kaldıraç noktası denir. 11

1.GİRİŞ Hasan ERTAŞ İyi (good leverage) kaldıraç noktası: Regresyon katsayılarının doğruluğunu arttıran X- yönündeki noktalara iyi kaldıraç noktası denir. 3. Hem X- uzayındaki hem de y- uzayındaki veri kümesinden uzakta bulunan noktalara hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler denir. 4. Veri kümesindeki diğer gözlemlerle karşılaştırıldığında tek tek ya da hep beraber kestirilmiş regresyon denklemine etki eden gözlemlere etkili gözlemler (influential observations) denir. Bir başka ifade ile, çözümlemeden bir veya birden fazla gözlem çıkartıldığında hesaplanan çeşitli değerleri (katsayıları, standart hataları, t-değeri vb) önemli ölçüde değiştiren gözlemlere etkili gözlemler denir Yukarıdaki sapan değer tanımlarını daha iyi açıklayabilmek için aşağıdaki örneği inceleyelim: Şekil 1.2. Sapan Değer Türleri Arasındaki Farklılıkları Gösteren Grafiksel Gösterim Şekil 1.2. deki 3,4 ve 5 numaralı gözlemler X- yönünde sapan değerlerdir. Bunlardan 3 numaralı gözlem iyi kaldıraç noktası, 4 ve 5 numaralı gözlemler kötü kaldıraç noktalarıdır. 1 ve 2 numaralı gözlemler y- yönünde sapan değerlerdir. Ayrıca 4 ve 5 numaralı gözlemler hem X- yönünde hem de y yönünde sapan değerlerdir. Şekil 1.1 de aykırı değer olan 1 ve 2 numaralı gözlemler karşılaştırıldığında 1 numaralı gözlemin yarattığı etki oldukça büyüktür; 2 numaralı gözlemin ise etkili gözlem 12

1.GİRİŞ Hasan ERTAŞ olduğu tartışılır. X- yönünde sapan değer olan 3,4 ve 5 numaralı gözlemlerde 4 ve 5 numaralı gözlem çok etkilidir. Çünkü bu gözlemlerin hem X değerleri hem de y değerleri regresyondaki ilişkiyle uyuşmamaktadır. 3 numaralı gözlem ise y değerinin regresyondaki ilişki ile uyumlu olması dolayısıyla etkili bir gözlem değildir. y-yönündeki, X-yönündeki ve etkili gözlemler arasındaki ilişki aşağıdaki gibidir (Chatterjee ve Hadi, 1988): 1. Etkili gözlemler genellikle aykırı değer ya da yüksek leverage gözlemlerdir 2. y-yönündeki sapan değerler etkili gözlem olmayabilir. 3. Yüksek leverage gözlemler etkili gözlem olmayabilir. 1.3.1. Maskeleme (Masking) ve Süpürme( Swamping) Problemi Maskeleme problemi, veride sapan değer olmasına karşın bu gözlemlerin belirlenememesidir. Bu genellikle bir sapan değerin, verideki diğer sapan değerler tarafından gizlenmesiyle ortaya çıkar. Bazı gözlemler ise sorunsuz olmalarına karşın, sapan değer olarak belirlenebilir (Swamping problemi). Bu ise genellikle verideki gerçek sapan değerlerin uydurulmuş regresyon doğrusunu kendilerine doğru çekmeleri ve böylece gerçek gözlemlerin uydurulmuş doğrudan uzaklaşmaları nedeniyle ortaya çıkar. Eğer veride sadece bir sapan değer varsa bu problemle karşılaşılmaz fakat birden fazla sapan değer olması durumunda oldukça sık karşılaşılabilecek bir problemdir. 13

1.GİRİŞ Hasan ERTAŞ 14

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2. EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Regresyon analizinde verilerde sapan değer veya sapan değerler olması durumunda kestirilen yöntemin varsayımlarında görülen sapmalar EKK kestiricilerinin istediğimiz özelliklere sahip olmamasına neden olacaktır. Veriler sapan değer içerdiğinde önümüze iki seçenek çıkacaktır. Birincisi klasik tanılama (diagnostics) yöntemleriyle sapan değerlerin bulunması, çıkarılması ve kalan gözlemler üzerinde klasik yöntemlerle kestirim yapılması, diğeri ise sağlam (roboust) yöntemleri kullanarak analiz sonuçları üzerinde büyük etki sahibi olan sapan değerlerin etkilerinin azaltılmaya çalışılmasıdır. Biz bu bölümde klasik tanılama yöntemlerini ele alacağız. 2.1. Bir Gözlemin Regresyon Doğrusu Üzerindeki Etkisi 2.1.1. X- Yönünde Sapan Değerleri Belirleyen Ölçüler 2.1.1.1. Şapka Matrisi X-uzayındaki veri kümesinden uzakta bulunan noktalar X-yönünde sapan değerler olarak adlandırmıştık. = ( ) ifadesiyle tanımlanan H şapka matrisinin köşegen elemanları olan h = ( ) ifadesini kullanarak X uzayının uzağındaki noktalar belirlenir. Bu ölçü için eşik değeri vermeden önce şapka matrisinin özelliklerini inceleyelim. X, tipinde açıklayıcı değişkenler matrisi ve = ( ) şapka matrisi olmak üzere; 1) H simetrik ve idempotent bir matristir ( = ve = ). 2) Trace(H)=rank(H)=p 3) 0 h 1 =1,2,, 4) h + 1 =1,2,, 15

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 5) =(, ) ve ; n ve ; n ( ) tipinde tam kolon ranklı matrisler olsun. Bu durumda X için şapka matrisi = ( ) olmak üzere; H= +(I- ) [ (I H ) ] (I ) şeklinde hesaplanır. Sonuç olarak büyük leverage (h ) degerine sahip noktalar X uzayı uzağındaki noktalardır ve bu nedenle h bu gözlemleri belirlemek için kullanabilecegimiz bir ölçüdür. Bu ölçü için eşik değer ; h > olan gözlemler yüksek leverage noktalar olarak düşünülebilir. Daha kaba olarak ifade edilirse h noktaların X uzayının uzağında olduğu söylenebilir. >1 eşitliğini sağlayan 2.1.1.2. Ağırlıklı Uzaklık Kareler Toplamı (Weighted Sum of Squares Distance) Daniel ve Wood (1980); X uzayında uzaktaki noktaları tespit etmek için bir başka ölçüt olan ağırlıklı uzaklık kareler toplamını (AUKT) kullanmayı öngörmüşlerdir. ; parametre, ; rezidü vektörü, = olmak üzere; AUK = =1,2,, biçiminde hesaplanan değerler artan sıraya göre dizilip değerler arasında ani bir sıçrama olup olmadığı kontrol edilir. Böyle bir durum söz konusu ise bir ya da birden fazla yüksek sapan değerin varlığından söz edilir. Eğer, AUK değerleri küçükten büyüğe doğru düzgün bir şekilde artıyorsa X- uzayında çok uzakta olan bir nokta bulunmuyor demektir. Bu nedenle, özellikle AUK değerleri yüksek olan gözlemler dikkatle incelenmelidir. 16

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.1.1.3. Mahalanobis Uzaklığı Sapan değerleri tespit etmede kullanılan klasik bir ölçüde Mahalanobis Uzaklığı dır. Bu uzaklık, lerin oluşturduğu çok değişkenli bir veri kümesinde bir gözlemin veri kümesinin merkezine olan uzaklığını belirtir., gözlem vektörü, =(1 ) =(1 ) biçiminde tanımlanırsa, sırasıyla aşağıdaki gibidir. nin ortalama vektörü ve kovaryans matrisi = (2.1) = ( ) ( ) (2.2) (2.1) ve (2.2) den i-inci gözlemin Mahalanobis Uzaklığı, = ( ) ( ) =1,2,, (2.3) biçiminde hesaplanır. Bununla birlikte, veri kümesi normal dağılımdan geliyorsa i-inci gözlemin bir sapan değer olup olmadığını belirlemek için değerleri serbestlik dereceli ve 0.95 güvenirlikteki ki-kare değeriyle karşılaştırılabilir. 2.1.2 y-yönünde Sapan Değerleri (Aykırı Değer) Belirleyen Ölçüler Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemleri y-yönünde sapan değerler olarak adlandırmıştık. y-yönünde sapan değerlerin belirlenebilmesi için temel olarak kullanılan ölçü rezidülerdir. 17

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.1.2.1. Rezidüler Regresyon sonuçlarının standart analizi temel varsayımlara dayalıdır. Doğru analizin yapılması için bu varsayımların geçerliliğinin kontrol edilmesi gerekir. Bu varsayımlardan birisi de = - =1,2,, olarak tanımlanan rezidülerdir. Rezidüler, regresyonda sapan değerlerin belirlenmesinde önemli rol oynar. Rezidü vektörleri (e),hata vektörleri (ε) cinsinden; = ( ) ile ifade edilir. Bu eşitlikte e nin için uygun bir nicelik olabilmesi için nin köşegen üzerinde olmayan noktalarının küçük olması gerekir. Hata terimleri, birbirleri ile ilişkisiz ve aynı varyansa sahip olmalarına rağmen rezidü terimleri lerin bagımsızlık ( köşegen olmadıkça), aynı varyansa sahip olma ( nin köşegen elemanları eşit olmadığı sürece ) özellikleri yoktur. Sonuç olarak rezidülerin lerin yerini alabilmesi için in satırlarının homojen bu nedenle nin köşegen elemanları yaklaşık olarak eşit ve köşegen haricinde bulunanlar da yeteri kadar küçük olmalıdır. Rezidüler dört grupta incelenir: 1) Standartlaştırılmış Rezidüler: Rezidünün varyansı yaklaşık olarak ile tahmin edildiğinden standartlaştırılmış rezidü; = =1,2,, (2.4) olarak elde edilir. Standartlaştırılmış rezidüler sıfır ortalamalı ve yaklaşık olarak birim varyansa sahiptir. 2) Studentized Rezidü:, şapka matrisinin -inci köşegen elemanı ve, şapka matrisinin ij-inci elemanı olmak üzere; Var( )= (1-h ) =1,2,, Cov(, )= - h =1,2,, 18

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 0 h 1 olduğundan rezidünün varyans tahmini için nin kullanımı aşırı tahmine (overestimate) neden olacaktır. Bu nedenle yerine studentized rezidüler, = ( ) =1,2,, önerilir. Büyük h ve büyük rezidüye sahip herhangi bir gözlem EKK kestirimi üzerinde etkili olacağından studentized rezidü önerilir. Problemsiz gözlemlerde değerleri [ 3,+3] aralığında yer alır (Montgomery ve Peck, 1992). 3) PRESS Rezidü: Standartlaştırılmış ve studentized rezidüler dışında sapan değerleri belirlemede bir diğer etkili ölçüm PRESS rezidü yani ön tahmin hata kareler toplamıdır. i-inci press rezidüyü hesaplamak için i-inci gözlem hariç diğer tüm n-1 gözlemlerden ( ) hesaplanır. Buna karşılık gelen ön tahmin hatası ( ) = ( ) =1,2,, biçiminde hesaplanır. Bu rezidü, i-inci PRESS rezidü olarak adlandırılır. Bu işlem her bir gözlem için =1,2,, tekrarlanarak ( ), ( ),, ( ) elde edilir. Bununla birlikte PRESS rezidüler; ( ) = =1,2,, yardımıylada hesaplanabilir. Bir rezidü ile PRESS rezidü arasındaki olası büyük fark, bu gözlem olmaksızın modelin zayıfladığını gösterir (Montgomery ve Peck, 1992). 4) R-Studentized Rezidü: Stundentized rezidü ler hesaplanırken nin bir tahmini olan kullanılmıştı. Bu ölçüme iç veya dahili (internal) rezidü denir. nin tahmini için bir diğer yaklaşımda i-inci gözlemin veriden atılmasına dayanır. Bu şekilde elde edilen nin tahmini 19

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ ( ) = ( ) =1,2,, = ( ) (2.5) olmak üzere, R-Studentized Rezidü; = ( ) ( ) =1,2,, (2.6) ile verilir. Buna da dış (externally) rezidü denir. R-Studentized türü rezidülerin, Studentized türü rezidülere tercih edilmesinin nedenleri şunlardır (Chatterjee ve Hadi, 1986): - nin t dağılımından ( ( ) ) gelmesi, -Büyük sapmaları daha açık yansıtması, - ( ) nin i-inci gözlemdeki büyük hataları düzeltmede sağlam bir kestirici olmasıdır. 2.1.2.2. Ortalama Değişim (Mean-Shift) Aykırı Değer Modellenmesi j- inci gözlemin aykırı değer olup olmadığının araştırılmasında W ile gösterilen yeni bir bağımsız değişken tanımlanmıştır. W nın i-inci elemanı i j iken =0 ve j-inci elemanı =1 olarak belirtilir. in j-inci satırı çıkarıldığında, = + denkleminin kestirimi tüm gözlemler için ve W üzerinden, = + + = 20

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ denkleminin kestirimi elde edilebilir. nin beklenen değeri dan a kadar farklıdır. Burada, W nın katsayısı olup ortalama değişim olarak adlandırılmaktadır. j-inci değerin aykırı değer olup olmadığına karar vermek için : =0 : 0 hipotezinin test edilmesi gerekir. Eğer hata terimleri normal dağılımdan geliyorsa, test istatistiği n-k-1 serbestlik derecesi ile t- dağılımıdır. Sıfır hipotezinin reddi, j-inci gözlemin aykırı değer olduğunun göstergesidir (Weisberg, 1985). 2.1.3 X ve y-yönündeki Sapan Değerleri Belirleyen Ölçüler Hem x-uzayındaki hem y-uzayındaki veri kümesinden uzakta bulunan noktaları hem bağımlı hem de bağımsız değişkenler yönünde sapan değer olarak adlandırmıştık. İyi bir veri analizi için rezidüler mutlaka incelenmelidir. Ancak sadece rezidülerin incelenmesi etkili gözlemlerin saptanmasında özelliklede yüksek leverage noktaları için yeterli değildir. Bazı ölçümler hem h hem de rezidüler hakkında bilgi verebilir. Bu ölçülerden biri; Z=(X:Y) eklemeli matris olmak üzere; =Z( ) şapka matrisinin köşegen elemanlarıdır. Şapka matrisinin (5) özelliğinden, =X ve =y alınırsa; = + olarak elde edilir. matrisinin i-inci köşegen elemanı; h = h + =1,2,, şeklinde tanımlanır. h, h ya da büyük olduğunda büyük olacaktır. Dolayısıyla h değeri büyük olan bir gözlemin sapan değer olduğu söylenebilir; ancak 21

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ X-yönünde ya da y-yönünde sapan değer olup olmadığı konusunda kesin bir yargıya varılamaz. Diğer bir ölçü Hadi (1992) tarafından verilen ölçüsüdür. Bu ölçü, = olmak üzere; = + =1,2,, (2.7) ile tanımlanır. (2.7) ile verilen eşitliğin ilk terimi potansiyel fonksiyon olup, X- yönündeki sapan değerlerin; ikinci terimi ise standartlaştırılmış rezidünün fonksiyonu olup, y-yönündeki sapan değerlerin belirlenmesini sağlar. Dolayısıyla veya h ya da her ikisi de büyükse büyük olacaktır. Büyük değerine sahip bir gözlem, genel olarak tüm regresyon sonuçları üzerinde daha etkilidir. nin bir rastgele değişken olduğu kabul edilirse; mean( )+ ( ) (c; 2 ya da 3 gibi sabit olmak üzere) ifadesinin büyük değerleri sapan değer olarak düşünülebilir (Hadi, 1992). 2.1.4 Etkili Gözlemleri Belirleyen Ölçüler Veri kümesindeki diğer gözlemlerle karşılaştırıldığında tek tek ya da grup halinde kestirilmiş regresyon denklemine etki eden gözlemleri etkili gözlemler (influential observations) olarak adlandırmıştık. Tüm gözlemler regresyon sonuçları üzerinde eşit etkiye sahip olmayabilir. Bunun yanında bir gözlem veya gözlemler bazı regresyon sonuçları için etkili iken tüm regresyon sonuçları için etkili olmayabilir. Örneğin ya da nın varyansı üzerinde, uydurulmuş değerler üzerinde etkili olabilir. Dolayısıyla ne üzerinde etkili? sorusu önemlidir. O halde araştırmacının öncelikle bu soruyu yanıtlayarak çalışmaya başlaması gereklidir. Bununla birlikte bir gözlem regresyon sonuçları üzerinde etkili ise y-yönünde sapan değer, X-yönünde sapan değer ya da ikisinin kombinasyonuda olabilir. 22

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.1.4.1. DFFITS Ölçüsü Welsch ve Kuh (1977) de belirttiği bu ölçü, veri kümesinden elde edilen i-inci kestirilmiş değerden i-inci gözlem çıkartılılarak elde edilen i-inci kestirilmiş değerin arasındaki fark alınarak tanımlanmıştır. = ( ) ( ) =1,2,, (2.8) Bu ifade de ( ), (2.5) eşitliği ile verildiği gibi ve ( ), i-inci gözlem çıkartıldıktan sonra elde edilen modeldeki i-inci kestirim değeridir. Bu ölçü için eşik değer, 2 olarak bulunmuştur (Besley ve ark. 1980). Yani; 2 olan gözlemlerin kestirim üzerinde etkili olduğu düşünülür. DFFITS uzaklığı = =1,2,, şekilde de ifade edilir. yukarıdaki eşitlikten de görüldüğü gibi bu ölçü, hem şapka matrisinin köşegen elemanlarından hem de R-student türü rezidülerden etkilenmektedir. Bir başka ifade ile bu uzaklık, yüksek leverage ve aykırı değerliliklerle yakından ilgilidir. 2.1.4.2. Welsch Uzaklığı Welsch (1982) verdiği bu ölçü, = ( ) ( ) = =1,2,, şeklinde ifade edilir. n> 15 olan regresyon modellerinde kullanılan bu ölçü, için eşik değer 3 dir. Yani, >3 olan gözlemler etkili gözlem olarak düşünülebilir (Chatterjee ve Hadi, 1986). 23

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.1.4.3. DFBETA ve DFBETAS Ölçüsü DFBETA ve DFBETAS ölçüleri; i-inci gözlem, veriden çıkarıldığında hesaplanacak olan yeni regresyon denkleminin parametrelerinde meydana gelecek olan değişimi hesaplamak üzere kullanılırlar. DFBETA, açıklayıcı değişken matrisi, e rezidü vektörü, h şapka matrisinin i-inci köşegen elemanı olmak üzere; = - ( ) = =1,2,, (2.9) şeklinde tanımlanır (Besley ve ark., 1980). (2.9) eşitliğinde elde edilen değer, çok büyük ise i-inci gözlemin, parametre kestirimi üzerinde etkisinin büyük olduğu söylenir. Benzer şekilde i-inci gözlemin j-inci parametre değerini ne kadar değiştirdiğinin ölçüsü olarak kullanılır ve = ( ) ( ) ( ) = ( ) =1,2,, (2.10) ( ) olarak ifade edilir., ( ) matrisinin j-inci köşegen elemanıdır. (2.10) daki ölçü için eşik değer, 2 olarak bulunmuştur. Yani; 2 ise i-inci gözlemin j-inci katsayı üzerinde etkili olduğu düşünülür (Besley ve ark., 1980). 2.1.4.4. Cook Uzaklığı Cook (1977) nun belirttiği bu uzaklık, bütün model üzerindeki etkiyi içerir. Bir başka ifade ile Cook uzaklığı, etkiyi hem nin kestiricisinin ya olan uyumunu hem de nin geriye kalan gözlemlerden uzaklığı anlamında ele alır. Cook uzaklığı, p parametre sayısı, e rezidü vektörü, = olmak üzere; 24

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ = ( ) ( ( ) =1,2,, olarak tanımlanmıştır. Her bir değeri,.,, tablo değeri ile karşılaştırılarak değerlendirilir. nin kritik değerlerden büyük olduğu durumlar için i-inci gözlemin etkili gözlem olduğu kabul edilir. Bunun yanı sıra Cook ve Weisberg (1977) ile Montgomery ve Peck (1982) de >1 olduğu değerler için i-inci gözlemin etkili olduğunu belirtmişlerdir. Cook Uzaklığı; = =1,2,, olarak da ifade edilir. Cook uzaklığı, regresyon modelindeki parametre dışında yukarıdaki eşitlikten de görüldüğü gibi, hem H şapka matrisinin köşegen elemanlarından (h ) hem de student türü ( ) rezidülerden etkilenmektedir (Montgomery ve Peck, 1982). Bir başka ifade ile bu uzaklık, yüksek leverage değerlilik ve aykırı değerlilikle yakından ilgilidir. 2.1.4.5. Düzeltilmiş Cook Uzaklığı Cook uzaklığı nın bir başka uyarlaması olan Düzeltilmiş Cook uzaklığı, etkili gözlemlerin belirlenmesinde kullanılır. Düzeltilmiş Cook uzaklığı; = = İ =1,2,, şeklinde ifade edilir (Atkinson, 1981). Yukarıdaki ifade de değeri (2.6) ile verilen R-Student rezidüler dir. Her bir için eşik değeri 2 dir. Yani, > 2 olan gözlemler etkili gözlemdir. 25

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ Düzeltilmiş Cook uzaklığının, Cook Uzaklığına göre avantajları; -Düzeltilmiş Cook uzaklığının sapan değerleri belirlemede daha hassas davranması, - değerlerinin grafiksel gösterim için daha uygun olması (Chatterjee ve Hadi, 1986). 2.1.4.6. COVRATIO ve FVARATIO (Varyans Oranı) Ölçüsü COVRATİO: Besley ve ark. (1980) nın belirttiği ve adını varyans kovaryans matrisinin oranlanmasından (covariance ratio) alan bu uzaklık, i-inci gözlemin nın kestirilmiş varyansı üzerindeki etkisini belirleyen bir ölçüdür. COVRATIO uzaklığı; = ( ) =1,2,, (2.11) şeklinde ifade edilir. (2.11) ifadesi ( ) = ( ) ( ) ( ) ve = ( ) ifadeleri yardımıyla; = ( ) ( ) ( ) { ( ) } =1,2,, olarak düzenlenir. Bu ölçü için eşik değer, 1±3 değeriyle karşılaştırılır. Yani; >1+3 olan gözlemler ya da <1 3 olan gözlemler uzaklığı; nın kestirilmiş varyansı üzerindeki etkili gözlemdir. COVRATİO 26

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ = =1,2,, olarak da ifade edilir. Yukarıdaki ifade de görüldüğü gibi bu ölçü, yüksek leverage noktalar (h ) ve Student rezidüler ( ) den etkilenmektedir. İ >1 olması, i-inci gözlemin parametre kestiricilerinin doğruluğunu arttırdığı; İ <1 olması durumu ise, i-inci gözlemin parametre kestiricilerinin doğruluğunu azalttığı şeklinde yorumlanır (Rawlings ve digerleri, 1998). FVARATIO: COVRATIO ölçüsünün tanımlanmasındakine benzer bir mantıkla, Besley ve ark. (1980) tarafından tanımlanan bu ölçü, i gözlemin nın kestirilmiş varyansı üzerindeki etkisini belirleyen bir ölçüdür. FVARATIO ölçüsü; = ( ) ( ) =1,2,, (2.12) olarak tanımlanır. Burada ( ), i-inci gözlem çıkartıldıktan sonra elde edilen uydurulmuş değerler vektörünün i-inci gözlemini ifade eder. (2.12) ifadesinde; ( ) = ( ) =1,2,, ( ) = h =1,2,, değerleri yerine yazılırsa; = ( ) ( ) =1,2,, olarak düzenlenir. Bu ifade ( ) nin p-inci kuvveti dışında, COVRATIO ölçüsü ile aynıdır. 27

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.1.4.7. Andrews-Pregibon İstatistiği: Andrews ve Pregibon (1978), nın güven elipsoidinin hacminin matrisinin determinantına bağlı oluşu ve büyük rezidüye sahip gözlemlerin veri kümesinden atılmasıyla rezidü kareler toplamı = ( ) değerinde büyük bir düşüş olacağı düşüncesinden hareketle i.gözlemin model üzerindeki etkisi matrisinin determinantı ile değerlerinde meydana gelen değişimi ölçerek elde etmek istemiş ve bu nedenden dolayı; = ( ) ( ) { } =1,2,, (2.13) ifadesini tanımlamıştır. (2.13) eşitliğiyle belirtilen Z matrisi, 1 1 Z= 1 (2.14) biçiminde tanımlanmaktadır. ( ) ise (2.14) ile tanımlanan matrisin i.satırının çıkartılmasıyla elde edilen matristir. Diğer gözlemlerle karşılaştırıldığında küçük değerine sahip gözlemlerin etkili olacağı düşünülür (Chatterjee ve Hadi, 1986). Andrews-Pregibon İstatistiği; =1 h =1,2,, şeklinde de hesaplanır. Buradan da görüleceği gibi değerlerle ve aykırı değerlerle yakından ilgilidir. değerleri, yüksek leverage 28

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.2. Birden Fazla Gözlemin Regresyon Doğrusu Üzerindeki Etkisi Tek bir sapan gözlemin belirlenebilmesi için bir çok yöntem tanımlanmıştır. Bu yöntemlerin çoğu gözlemin veri kümesinden çıkarılması temeline dayanmaktadır. Fakat bazı durumlarda bir sapan gözlem bir diğerini çeşitli biçimlerde etkileyebilmektedir. Bu etkiler maskeleme ve swamping problemine neden olmaktaydı. Bu problem nedeniyle, gözlem gruplarının potansiyel etkilerini ve dolayısıyla sapan gözlem olup olmadıklarını incelemek için Bölüm 2.1 de X- yönünde sapan değer, y-yönünde sapan değer ve etkili gözlem olarak verilen ölçüleri, birden fazla gözlem için genelleştirebiliriz. 2.2.1. Cook Uzaklığı Tek bir gözlemin etkisinin incelenmesi için, Cook (1977) tarafından tanımlanan Cook Uzaklığı ( ), birden fazla gözlem etkisi için I, etkisi incelenen m gözlemin için indis kümesini ifade etmek üzere; = ( ) ( ( ) olarak tanımlanır (Cook ve Weisberg, 1982). Bu eşitlik bir takım düzenlemelerden sonra; = ( ) olarak ifade edilir. 29

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.2.2. MDFFITS Ölçüsü Bu ölçü tek bir gözlemin değil de şüphe edilen birden fazla gözlemin veri kümesinden çıkartılıp elde edilen kestirilmiş değerlerle, tüm veriler kullanıldığında bulunan kestirilmiş değerler arasındaki farklılığın incelenmesidir. Bu ölçü; ( ) = ( ) ( ( ) şeklinde ifade edilir. Bu ifadede de bir takım düzeltmeler yapıldıktan sonra; ( ) = (1 ) ifadesi elde edilir. Burada I, m sayıda çıkartılacak gözlemlerden oluşan indis kümesi, ( )ise m sayıdaki gözlem çıkartıldıktan sonra elde edilen parametre kestiricilerinin oluşturduğu sütun vektörünü göstermektedir (Besley ve ark., 1980). MDFFITS ölçüsü, diğer gözlem kümeleri ile karşılaştırıldığında büyük değerler veren gözlem kümelerinin etkili gözlemlere sahip olduğunu belirtir. 2.2.3. Ölçüsü Besley ve ark.(1980) tek bir satır çıkartıldığında ( ), uydurulmuş değerine nasıl bir değişim olduğunu ölçmek için (2.8) ölçüsünü tanımlamışlardı. Benzer şekilde birden fazla gözlem çıkartılması durumunda ölçü; = ( ) ( ( ) ( ) ile ifade edilir. Bir takım düzenlemeler yapılırsa; = ( ) ( ) 30

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ şeklinde ifade edilir. 2.2.4. Ölçüsü Welsch (1982) sonsuz büyüklükteki örnekleme gözlemlerin bir alt kümesinin eklenmesi ile ortaya çıkacak etkinin uygun şekilde normlu ölçüsüne sonlu bir örneklem yaklaşımı verdi. Bu ölçü; = ( ) ( ) ( ) ( ) (2.15) olarak tanımlanır. Burada n; gözlem sayısı, I; m sayıda çıkartılacak gözlemlerden oluşan indis kümesidir ve ise; = ( ) ( ) ( ) ( ) dır. (2.15) ifadesinde gerekli düzenlemeler yapılırsa; = ( ) ( ) ( ) ifadesi elde edilir. 2.2.5. COVRATIO Ölçüsü Bu ölçü (2.11) de ifade edilen COVRATIO ölçüsünün, birden fazla gözlemin çıkartılmasıyla elde edilmiştir. Bu ölçü; ( ) = ( ) ( ) ( ) { ( ) } (2.16) 31

2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ olarak tanımlanır. Burada ( ), m sayıdaki gözlem çıkartıldıktan sonra elde edilen varyans kestiricisidir Besley ve ark.,(1980). (2.16) ile verilen ölçü, diğer gözlem kümeleri ile karşılaştırıldığında çok büyük ya da çok küçük değerler veren gözlem kümelerinin varyans-kovaryans matrisi üzerinde büyük etkiye sahip olduğunu belirtir. 2.2.6. Andrews-Pregibon İstatistiği Bu ölçü, Andrews ve Pregibon (1978) un ifade ettiği ve (2.13) de verilen ölçüsünün (2.14) de gösterilen Z matrisinden birden fazla satırın çıkarılmasıyla elde edilmiş şeklidir. Burada satır çıkarma ile kastedilen durum, birden fazla sapan gözlemlerin belirlenebilmesi için etkili olduğundan kuşku duyulan gözlemlerin aynı anda veri kümesinden çıkartılmasıdır. Bu ölçü; ( ) = ( ) ( ) { } (2.17) şeklinde ifade edilir. Bu ölçü şu şekilde de yorumlanır: 1 ( ) şeklinde tanımlanan ve nin oluşturduğu bir elipsin hacmindeki göreli değişimle ilişkilidir (Draper ve John, 1981). (2.17) deki determinant değerleri özünde hacim değerleri olarak düşünülür. Bu nedenle, diğer gözlem kümeleri ile karşılaştırıldığında küçük ( ) değerlerini veren gözlem kümeleri etkili gözlemlere sahiptir denilebilir. 32

3. YANLI KESTİRİCİLER Hasan ERTAŞ 3. YANLI KESTİRİCİLER Açıklayıcı değişkenler arasında lineer ilişki olması çoklu iç ilişki problemine neden olmaktadır. Bu durumda neler yapılabileceği Bölüm 1.2.4 de verilmişti. Çoklu iç ilişki problemi olması durumunda EKK kestiricisi hala yansızdır fakat varyansı çok büyüktür. Bu nedenle gerçek değerinde uzaklaşır. Bu problemi ortadan kaldırmak için önerilen kestirim yöntemleri yanlı kestiricilerin ortaya çıkmasına ve incelenmesine neden olmuştur. Bu bölüm de bazı yanlı kestirim yöntemleri incelenecektir. 3.1. Yanlı Kestirim Yöntemleri EKK kestiricisi, standart regresyon varsayımlarının sağlanması durumunda yansız kestiriciler arasında minumum varyansa sahip olan kestiricidir. Ancak bu varsayımlarının hepsi birden sağlanmadığında, EKK kestiricisinin varyansının minumum olduğu söylenemez. (Çoklu iç ilişki probleminin varlığında daha küçük varyanslı bir kestirici elde etmenin bir yolu, nın kestiricisinin yansız olması özelliğini değiştirmektir.) nın gibi öyle bir yanlı kestiricisi bulunabilir ki; yansız dan daha küçük varyansa sahiptir. Hata karaler ortalaması ( ); ve arasındaki uzaklığın karesinin beklenen değeri olup kestiricisi için = şeklinde ifade edilir. Hata kareler ortalaması ( ), kestiricisinin varyans ve yanlılık teriminin karesinin toplamı olarak; = + şeklinde ifade edilir. Yanlı kestirim yöntemlerinde amaç küçük bir yanlılık terimi kullanarak varyansı küçük bir kestirici elde etmektir. Buna bağlı olarak yanlı kestirici 33