ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Transkript

1 ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ Hasan ERTAŞ ÇOKLU LİNEER REGRESYONDA SAPAN DEĞERLERİN BELİRLENMESİ İÇİN TANILAMA ÖLÇÜLERİ İSTATİSTİK ANABİLİM DALI ADANA, 2011

2 ÖZ YÜKSEK LİSANS TEZİ ÇOKLU LİNEER REGRESYONDA SAPAN DEĞERLERİN BELİRLENMESİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ İSTATİSTİK ANABİLİM DALI Danışman :Prof. Dr. Selahattin KAÇIRANLAR Yıl: 2011, Sayfa: 113 Jüri :Prof. Dr. Selahattin KAÇIRANLAR :Prof. Dr. Sadullah SAKALLIOĞLU :Yrd. Doç. Dr. Gülsen KIRAL Çoklu lineer regresyonda; bağımsız değişkenler arasında yaklaşık bir lineer bağımlılık olması (çoklu iç ilişki problemi) ve sapan değerlerin varlığı durumunda EKK analizi uygun ve tutarlı sonuçlar vermemektedir. Literatürde; veride çoklu iç ilişki olması durumunda; çoklu iç ilişkinin etkilerini hafifletmek için EKK kestiricisine alternatif olarak önerilen çok sayıda yanlı kestiriciler vardır. Yanlı kestiricilerin bir kısmını içine alan bir sınıf, önce Lee ve Birch (1988) tarafından verilmiştir. Daha sonra, Topçubaşı (2001), Liu ve genelleştirilmiş Liu kestiricilerinin bu sınıfa dahil edilebileceğini göstermiştir. Bu çalışmada; modified ridge ve modified Liu kestiricilerinin bu sınıfa dahil edilebileceği gösterilmektedir. Yanlı kestiriciler için tanılama ölçüleri üzerinde çok az çalışma vardır. Bu çalışmada; EKK regresyon sonuçları üzerinde gözlem (veya gözlemlerin) etkisini belirlemek için verilen klasik tanılama ölçülerinden yararlanarak, yanlı sınıf kestiricileri için tanılama ölçüleri verilmektedir. Anahtar Kelimeler: Çoklu iç ilişki, Tanılama Ölçüleri, Sapan Değer, Yanlı Kestiriciler I

3 ABSTRACT MSc THESIS DIAGNOSTİCS MEASURES FOR IDENTIFICATION OF OUTLIERS IN MULTIPLE LINEAR REGRESSION Hasan ERTAŞ ÇUKUROVA UNIVERSITY INSTITUTE OF NATURAL AND APPLIED SCIENCES DEPARTMENT OF STATISTICS Supervisor :Prof. Dr. Selahattin KAÇIRANLAR Year: 2011, Pages: 113 Jury :Prof. Dr. Selahattin KAÇIRANLAR : Prof. Dr. Sadullah SAKALLIOĞLU :Asst. Prof. Gülsen KIRAL In multiple linear regression; ordinary least squares analysis does not give satisfactory and consistent results in the presence of linear depency among predictors (multicollinearity) and existence of outliers in data. In the literature, several biased estimator have been proposed as alternatives to the least squares estimator in the presence of multicollinearity to mitigate the effect of multicollinearity in the analysis. A class that includes a part of biased estimator has been proposed by Lee and Birch (1988). After that, it was shown that Liu and generalized Liu estimators can also be included in this class by Topçubaşı (2001). In this study, it is shown that modified ridge and modified Liu estimators can also be included in this class. Little work has been done on the use of diagnostic measures for biased estimator. In this thesis, diagnostic measures are also defined for this class of biased estimator by using classical diagnostics measures given for assessing the influence of observation on least squares regression results. Key Words: Multicollinearity, Diagnostics Measures, Outliers, Biased Estimator II

4 TEŞEKKÜR Tüm çalışmalarımda beni yönlendiren danışmanım Sayın Prof. Dr. Selahattin KAÇIRANLAR a çalışmalarım boyunca değerli zamanını bana ayıran Sayın Arş. Gör. Murat ERİŞOĞLU na, Sayın Arş. Gör. Nazif Çalış ve Çukurova Üniversitesi İstatistik Bölüm ünün diğer öğretim elemanlarına, manevi desteğinde dolayı eşim Esra Hanım a ve tüm hayatım boyunca maddi-manevi tüm desteklerinden dolayı aileme teşekkür ederim. III

5 İÇİNDEKİLER SAYFA ÖZ... I ABSTRACT... II TEŞEKKÜR... III İÇİNDEKİLER.....IV ÇİZELGELER DİZİNİ... VIII ŞEKİLLER DİZİNİ...X SİMGELER VE KISALTMALAR... XII 1. GİRİŞ Temel Kavramlar Çoklu İç ilişki Çoklu İç İlişkinin Nedenleri Çoklu İç İlişkinin EKK Üzerindeki Etkileri Çoklu İç İlişkinin Belirlenmesi Çoklu İç İlişki İçin Çözüm Yöntemleri Sapan Değer Maskeleme(Masking) ve Süpürme( Swamping) Problemi EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Bir Gözlemin Regresyon Doğrusu Üzerindeki Etkisi X- Yönündeki Sapan Değerleri Belirleyen Ölçüler Şapka Matrisi Ağırlıklı Uzaklık Kareler Toplamı Mahalanobis Uzaklığı y- Yönündeki Sapan Değerleri Belirleyen Ölçüler Rezidüler Ortalama Değişim (Mean-Shift ) Aykırı Değer Modellenmesi X ve y- Yönündeki Sapan Değerleri Belirleyen Ölçüler Etkili Gözlemleri Belirleyen Ölçüler DFFITS Ölçüsü Welsch Uzaklığı IV

6 DFBETA ve DFBETAS Ölçüsü Cook uzaklığı Düzeltilmiş Cook Uzaklığı COVRATIO ve FVARATIO (Varyans Oranı) Ölçüsü Andrews-Pregibon İstatistiği Birden Fazla Gözlemin Regresyon Doğrusu Üzerindeki Etkisi Cook Uzaklığı MDFFITS Ölçüsü DFFITS Ölçüsü W Ölçüsü COVRATIO Ölçüsü Andrews-Pregibon İstatistiği YANLI KESTİRİCİLER Yanlı Kestirim Yöntemleri Ridge Kestiricisi Ridge Kestiricisinin Bazı Özellikleri k Yanlılık Parametresinin Seçimi Genelleştirilmiş Ridge Kestiricisi Modified Ridge Kestiricisi Temel Bileşenler Kestiricisi Genelleştirilmiş Ters (Ondalık Rank ) Kestiricisi Stein Kestiricisi Liu ve Genelleştirilmiş Liu Kestiricileri Liu Kestiricisinin Bazı Özellikleri Modified Liu Kestiricisi Yanlı Kestiricilerin Bir Sınıfı Genel Yanlı Sınıf İçinde Yer Alan Kestiriciler Yanlılık Parametresi nin Hesaplanması GENEL YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Genel Yanlı Kestiriciler İçin Tanılama Ölçüleri Genel Yanlı Sınıf Kestiricileri İçin Rezidü ve Leverage Ölçüleri V

7 Genel Yanlı Sınıf Kestiricileri İçin Etki Ölçüleri Genel Yanlı Sınıf İçin Tanılama Ölçülerine Farklı Bir Yaklaşım UYGULAMA Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrufu Verisi Bir Sapan Gözlemin Regresyon Doğrusu Üzerindeki Etkisinin İncelenmesi Sapan, Aykırı Değer ve Etkili Gözlem Ölçüleri Tek Sapan Gözlemlerin Grafiklerle İncelenmesi Tek Sapan Gözlemler İçin Genel Sonuç Longley Verisi Longley Veri Kümesi İçin Çoklu İç İlişkinin Belirlenmesi Ridge, Modified Ridge, Liu ve Modified Liu Kestiriciler İçin Regresyon Sonuçları ve Tanılama Ölçüleri Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri Modified Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri Modified Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri EKK Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri SONUÇLAR VE ÖNERİLER KAYNAKLAR ÖZGEÇMİŞ VI

8 VII

9 ÇİZELGELER DİZİNİ SAYFA Çizelge 3.1. Genel Yanlı Sınıf İçinde Yer Alan Kestiriciler ve Yanlılık Parametreleri Çizelge 5.1. Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrufu Çizelge 5.2. EKK Kestiricisi İçin Regresyon Sonuçları Çizelge 5.3. Bazı ölçüler İçin Kritik Değerler Çizelge 5.4. Aykırı Değerlerle İlgili İstatistikler Çizelge 5.5. X- yönündeki Sapan Değerlerle İlgili İstatistikler Çizelge 5.6. Etkili Gözlemlerle İlgili İstatistikler Çizelge 5.7. Etkili Gözlemlerle İlgili İstatistikler Çizelge 5.8. Tek Sapan Gözlemler İçin İnceleme Çizelge 5.9. Longley Verisi Çizelge Longley Verisi İçin Korelasyon Matrisi Çizelge Tablo Longley Verisi İçin Varyans Şişirme Faktörü, Özdeğerler ( ) ve Koşul İndeksi ( ) Değerleri Çizelge Ridge Kestiricisi İçin Tanılama Ölçüleri Çizelge Modified ridge Kestiricisi İçin Tanılama Ölçüleri Çizelge Liu Kestiricisi İçin Tanılama Ölçüleri Çizelge Modified Liu Kestiricisi İçin Tanılama Ölçüleri Çizelge EKK Kestiricisi İçin Tanılama Ölçüleri Çizelge EKK, Ridge, Modified ridge, Liu ve Modified Liu Kestiricilerinin Cook Uzaklığı VIII

10 IX

11 ŞEKİLLER DİZİNİ SAYFA Şekil 1.1. Yinelemeli Regresyon Yönteminin Akış Diyagramı İle Gösterimi... 4 Şekil 1.2. Sapan Değer Türleri Arasındaki Farklılıkları Gösteren Grafiksel Gösterim Şekil 5.1. Kestirilmiş Değer-Rezidü Grafiği Şekil 5.2. Leverage- Studentized Rezidü Grafiği Şekil 5.3. Cook Welsch ve Kuh Uzaklığı Grafiği Şekil 5.4. Düzeltilmiş Cook -Welsch Uzaklığı Şekil 5.5. Ridge Kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil 5.6. Ridge Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı Şekil 5.7. Modified ridge Kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil 5.8. Modified ridge Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı Şekil 5.9. Liu Kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı Şekil Modified Liu Kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil Modified Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı X

12 XI

13 SİMGELER VE KISALTMALAR EKK : En Küçük Kareler MSE : Hata Kareler Ortalaması SSE : Rezidü Kareler Toplamı MMSE : Matris Hata Kareler Ortalaması SMSE : Skaler Hata Kareler Ortalaması XII

14 XIII

15 ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ REGRESYON ANALİZİNDE AYKIRI DEĞERLERİN BELİRLENMESİ Hasan ERTAŞ YÜKSEK LİSANS TEZİ İSTATİSTİK ANABİLİM DALI Bu Tez../../2011 Tarihinde Aşağıdaki Jüri Üyeleri Tarafından Oybirliği/Oyçokluğu ile Kabul Edilmiştir.... Prof. Dr. Selahattin KAÇIRANLAR DANIŞMAN.. Prof. Dr. Sadullah SAKALLIOĞOLU ÜYE Yrd. Doç. Dr. Gülsen KIRAL ÜYE Bu Tez Enstitümüz İstatistik Anabilim Dalında hazırlanmıştır. Kod No: Prof. Dr. İlhami YEĞİNGİL Enstitü Müdürü Not: Bu tezde kullanılan özgün ve başka kaynaktan yapılan bildirişlerin, çizelge ve fotoğrafların kaynak gösterilmeden kullanımı, 5846 sayılı Fikir ve Sanat Eserleri Kanunundaki hükümlere tabidir.

16 1.GİRİŞ Hasan ERTAŞ 1.GİRİŞ 1.1. Temel Kavramlar Regresyon analizi değişkenler arası ilişkiyi inceleyen ve modelleyen istatistiksel bir tekniktir. İlişki bir veya birden fazla açıklayıcı değişken ve yanıt değişkenin bir denklemi olarak ifade edilir. Yanıt değişken y, açıklayıcı değişken,,, ile gösterilsin. y ile,,, arasındaki gerçek ilişkiye =,,, + regresyon modeli ile yaklaşırız. Burada,,,, y ile,,, arasındaki ilişkiyi tanımlayan fonksiyon ve, modelin veriye uyumundan kaynaklanan hata terimidir. Regresyon modelleri; verinin tanımlanması, parametre tahmini, ön tahmin, kontrol amaçlı kullanılabilir. Bir regresyon denklemi bir tek açıklayıcı değişken içeriyorsa basit regresyon, birden fazla açıklayıcı değişken içeriyorsa çoklu regresyon olarak adlandırılır. Çoklu doğrusal(lineer) regresyon modeli; = + (1.1) formunda olup ve n; gözlem sayısı, k; açıklayıcı değişken sayısı, = +1 olmak üzere; y, 1 tipinde yanıt değişkenin vektörü,, tipinde açıklayıcı değişkenlerin matrisi, ; 1 tipinde bilinmeyen parametrelerin vektörü ve, 1 tipinde rastgele hataların vektörüdür. En Küçük Kareler Yöntemi (EKK): (1.1) ile verilen çoklu lineer regresyon modelinin parametrelerinin EKK yöntemi ile tahmin edilmesindeki amaç gözlenen (, ) noktalarını en iyi temsil edecek regresyon doğrusunun bulunmasıdır. Bu nedenle EKK yönteminde; (1.1) çoklu doğrusal modelindeki hata terimlerinin kareleri toplamını minumum yapacak parametre tahminleri yapılır. Yani, çoklu lineer regresyon modeli; 1

17 1.GİRİŞ Hasan ERTAŞ = + ve parametresinin EKK kestiricisi olmak üzere; ( ) = = = ( ) ( ) şeklinde verilen ( ) fonksiyonunu minumum yapan; =( ) (1.2) ifadesi elde edilir. Gözlenen değerlerine karşılık gelen uydurulmuş değerlerin vektörü (fitted) = = ( ) = = ( ) matrisi şapka matrisi olarak adlandırılır. Gözlenen değerleri ve karşılık gelen uydurulmuş değerleri ve gözlenen değerlerinin ortalaması olmak üzere; =, =1,2,, farkına rezidü(artık), = ( ) =, ifadesine rezidü kareler toplamı, = ( ), ifadesine regresyon kareler toplamı, = ( ), ifadesine genel kareler toplamı, denir. = =, ifadesine hata kareler ortalaması EKK kestiricisi nın önemli istatistiksel özellikleri aşağıda verilmiştir. 2

18 1.GİRİŞ Hasan ERTAŞ 1) Yansız bir tahmin edicidir ( = ). 2) En iyi lineer yansız tahmin edicidir (Gauss-Markov Teoremi) (Yani diğer yansız tahmin ediciler arasında minimum varyansa sahiptir). EKK sonuçları ve bunlara dayalı istatistiksel analiz bir takım varsayımları gerektirir. Bu varsayımlar şu şekildedir; y, yanıt değişkeni, açıklayıcı değişkenin lineer fonksiyonu olmalı, Hata terimi, sıfır ortalamalı ve varyanslı normal dağılıma sahip olmalı, ( ) =0, ( ) =, ~ (0, ) Hata terimleri birbiriyle ilişkisiz olmalı, =0, = [,,, ] olmak üzere;,,, açıklayıcı değişkenleri rastgele değişken olmamalı,,,, açıklayıcı değişkenleri lineer bağımsız olmalıdır, Verilen varsayımların sağlanmaması durumunda EKK yöntemi ile tahmin edilen regresyon parametrelerinin güvenirliğinin bozulacağı bilinmektedir. Dolayısıyla eldeki verilere uygun regresyon modelinin kurulması ve model uygunluğunun araştırılması regresyon analizinin temel konularından biridir. Regresyon analizi bir dizi analitik tekniklerin kullanımı olup, bu analiz yinelemeli bir süreç olarak değerlendirilir. Bu yinelemeli süreç bir şema ile verilebilir (Chatterjee ve Hadi, 1988). 3

19 1.GİRİŞ Hasan ERTAŞ Başlama Problemin matematiksel olarak belirlenmesi 1. Uygun değişken kümesi seç 2. Modelin formunu seç 3. Uydurma yöntemini seç Modeli Uydurma 1.EKK metodunun uygulanması Geçerli varsayımlar. 1. Rezidü plotları 2. Etkili gözlemlerin belirlenmesi 3. Sapan değerler için test vb HAYIR Tamam EVET Uygun Modelin Belirlenmesi 1.İyi bir uydurma için test HAYIR Tamam Dur EVET Şekil 1.1. Yinelemeli Regresyon Yönteminin Akış Diyagramı İle Gösterimi 4

20 1.GİRİŞ Hasan ERTAŞ Akış diyagramı incelendiğinde; problemin matematiksel olarak ifade edilmesi aşamasında başlangıç olarak uygun değişken kümesinin belirlenmesi gerekmektedir. Çünkü lineer regresyonda ilişkili değişkenlerin aynı anda modelde yer alması durumunda, daha önce verilen matrisine ilişkin varsayımlardan birisi sağlanmamış olur ki bu sağlıklı tahmin ediciler elde edilmesini engeller. Bu nedenden dolayı model kurulmadan önce değişkenler arasındaki ilişki incelenmelidir. Bunun ardından eğer değişkenler arasında ciddi bir lineer ilişki söz konusu ise, EKK kestiricisi yerine başka tahmin yöntemleri kullanılmalıdır. Eğer değişkenler arasında ciddi bir lineer ilişki söz konusu değilse, EKK kestiricisi kullanılarak model oluşturulup, uygunluğu test edilmelidir Çoklu İç İlişki (Multicolinearity) (1.1) ifadesindeki çoklu lineer regresyon modelinde, genellikle açıklayıcı değişkenlerin bağımsız olduğu varsayılır. Fakat uygulamada, lineer ilişki olabilir. Bu durumda açıklayıcı değişkenler arasında lineer bağımsızlık varsayımı geçerli olmaz. Bu da çoklu iç ilişki problemine neden olur., matrisinin j-inci kolon vektörü( = [,,, ]) olsun. =0 (1.3) olacak şekilde 0, =1,2,, sabitleri varsa,,, vektörleri lineer bağımlıdır. Eğer açıklayıcı değişkenler arasında bir lineer ilişki yoksa, açıklayıcı değişkenler ortogonaldır denir. X'X = I iken X matrisi ortogonal açıklayıcı değişkenleri içerir. in kolonlarının bir kümesi için (1.3) sağlanıyorsa "tam çoklu iç ilişki vardır" (Silvey, 1969). Bu durumda matrisinin rankı p den küçük olur ve matrisi tersinir olmayacaktır. Buna kötü koşulluluk problemi denir. Fakat (1.3) in kolonlarının bazı alt kümeleri için yaklaşık olarak doğru ise "yaklaşık çoklu iç ilişki" vardır. 5

21 1.GİRİŞ Hasan ERTAŞ Çoklu İç İlişkinin Nedenleri Çoklu iç ilişkinin birçok nedeni olabilir (Judge ve ark., (1985), Montgomery ve Peck (1992)). Bunlardan bazıları şu şekildedi: 1) Uygulanan veri toplama metodu: Araştırmacının (1.3) ile tanımlı bir bölgenin alt uzayından örneklem almış olması çoklu iç ilişkiye neden olur. 2) Modeldeki ve kitledeki zorunluluklar: Kitledeki zorunluluklar daha çok açıklayıcı değişkenlerin kimyasal veya üretim süreçlerinde ortaya çıkar. Örneğin, bir kimyasal reaksiyonun gerçeklenmesi için belli içeriklerin sabit oranlarda olması gibi. 3) Modelin belirlenmesi: X açıklayıcı değişkenlerinin değişim aralığı küçük iken bir regresyon modeline polinom terimi eklenmesi çoklu iç ilişki problemine neden olur. 4) Modelin aşırı tanımlanması: Gözlemlerden çok açıklayıcı değişkenlerin olduğu modellere aşırı tanımlanmış model denir ( > ). Daha çok tıbbi araştırmalarda ve ekonometrik modellerde ortaya çıkar. Bu gibi durumlarda açıklayıcı değişkenlerden bazılarını atmak gerekir. Değişken çıkarılması, hem analizi kolaylaştırmak hem de var olan iç ilişkiyi indirgemek için kullanılabilecek bir diğer yöntemdir Çoklu İç İlişkinin EKK Üzerindeki Etkileri 1) Regresyon katsayılarının EKK kestiricilerinin varyansını artırır; = (, ) özel halini ele alalım ( =2). Bu durumda = ( ) = şeklinde ifade edilir. ; ile arasındaki korelasyon katsayısı = ( ) olduğundan 1 iken büyüyecektir. Dolayısıyla ve güçlü bir çoklu iç ilişki problemi oluşacaktır. Bu durumu genelleştirecek olursak, yani p açıklayıcı değişken olması durumunda ( ) matrisinin köşegen elemanları ler; =1,2,, 6

22 1.GİRİŞ Hasan ERTAŞ = şeklinde ifade edilir. Burada, açıklayıcı değişkeninin, geriye kalan 1 açıklayıcı değişken üzerine regres edilmesiyle elde edilen çoklu belirleyicilik katsayısıdır. Dolayısıyla ve diğer açıklayıcı değişkenler arasında bir lineer ilişki varsa bu durum yine varyans artırıcı bir etki yapacaktır. Varyansın büyük olması ise sonuçların örneklemden örnekleme değişebilirliği anlamına gelecektir. Bu durumda da kestiricinin güvenirliğini azaltacaktır. 2) ile parametresi arasındaki uzaklığı artırır; matrisinin özdeğerleri 0 olmak üzere çoklu iç ilişki problemi matrisinin öz değerlerinin küçük olmasına neden olacaktır. Dolayısıyla = ( ) = ( ) = (1.4) ile verilen ( ) yi yani gerçek parametre ile EKK kestiricisi arasındaki uzaklığın beklenen değerini arttıracaktır. 3) nın boyunun (normunun) büyümesine neden olur; (1.4) ile verilen ( ) nin büyük olması durumda kestirilmiş parametrenin normunun beklenen değeri; = + ( ) şeklinde ifade edilir. Böylece nın normu gerçek parametreden daha büyük olacaktır. Kötü koşulluluk arttıkça kestirilmiş parametrelerin normu daha da büyüyecektir. Sonuç olarak çoklu iç ilişki problemi, EKK yöntemi model parametrelerinin kötü kestirimlerinin elde edilmesine neden olacaktır. 7

23 1.GİRİŞ Hasan ERTAŞ Çoklu İç İlişkinin Belirlenmesi Çoklu iç ilişkinin belirlenmesi için çeşitli yöntemler vardır. Bunlardan bazıları aşığıda verilmiştir. Korelasyon Matrisinin İncelenmesi: matrisinin köşegen üzerinde bulunmayan incelenmesi çoklu iç ilişkinin belirlenmesini sağlar. ve açıklayıcı değişkenleri lineer bağımlı ise bire yakın olur. Basit korelasyon katsayısı nin incelenmesi sadece ikili açıklayıcı değişkenler arasındaki lineer bağımlılığı incelemede yararlıdır. Fakat ikiden fazla açıklayıcı değişkenler arasında lineer bağımlılık varsa uygun ölçü olmayabilir. Dolayısıyla açıklayıcı değişkenler arasında ikili lineer ilişkiden daha karışık bir durum söz konusu ise korelasyon matrisi çoklu iç ilişkinin belirlenmesinde yeterli bir ölçü olmayacaktır. Varyans Şişirme Faktörü(VIF): ( ) matrisinin j. köşegen elamanına j.varyans şişirme faktörü denir., nin diğer 1 açıklayıcı değişken üzerine olan modelinden çoklu belirleyicilik katsayısı olmak üzere; = = 1 olarak ifade edilir. diğer açıklayıcı değişkenlerin bir alt kümesi ile yaklaşık olarak lineer bağımlı ise bire yaklaşır ve büyür. Herhangi bir değeri 10 dan büyükse çoklu iç ilişki problemi vardır denir. matrisinin karakteristik köklerinin (özdeğerlerinin) analizi: matrisinin özdeğerleri 0 olmak üzere bir ya da daha fazla özdeğerin küçük (sıfıra yakın) olması veride çoklu iç ilişki olduğunu gösterir (Vinod ve Ullah, 1981). ve matrisinin minumum ve maksimum özdeğerleri olmak üzere; 8

24 1.GİRİŞ Hasan ERTAŞ = olarak tanımlanan koşul sayısı çoklu iç ilişki problemini belirlemede kullanılır. <100 çoklu iç ilişki yoktur 100 < <1000 orta şiddetli çoklu iç ilişki vardır 1000 şiddetli çoklu iç ilişki vardır. Koşul sayısı sık kullanılan ölçülerden biri olmakla birlikte, kolon ölçeklemesine duyarlıdır. Bu olumsuzluğu ortadan kaldırabilmek için koşul indeksi tanımlanmıştır. matrisinin koşul indeksi; =, =1,2,, olarak tanımlanır. Büyük koşul indeks sayısı ( 1000) deki lineer bağımlılığının büyüklüğünün bir ölçüsüdür. Ayrıca en büyük koşul indeksi koşul sayısıdır. Diğer Tanılama Yöntemleri: Çoklu iç ilişki bir çok yöntemle belirlenebilir. Bunlardan birisi matrisinin determinantıdır. Standartlaştırılmış formda 0 1 dir. =1 ise açıklayıcı değişkenler ortogonaldir aksine =0 ise tam çoklu iç ilişki vardır. sıfıra yaklaştıkça çoklu iç ilişkinin şiddeti artacaktır (Farrar ve Glauber, 1967). Ayrıca regresyon katsayılarının işaretlerinin ve büyüklüklerinin beklenenden farklı olması, açıklayıcı değişkenlerin eklenmesi veya çıkarılması ile regresyon katsayılarının kestirimlerinde büyük değişikliklere neden olması çoklu iç ilişkinin olduğunu gösterir. Bütün ölçüler içinde en yaygın kullanımı olanlar;, koşul sayısı ve koşul indeksleridir. Bu ölçüler ancak matrisinin tüm satırlarının eşit etkili olması durumunda sağlıklı sonuçlar verebilir. Üzerinde çalışılan veri kümesinde öyle 9

25 1.GİRİŞ Hasan ERTAŞ gözlem(ler) olabilir ki; bahsedilen bu ölçülere veride çoklu iç ilişki olmadığı halde varmış ya da çoklu iç ilişki olduğu halde yokmuş gibi sonuçlar verebilir. İşte bu tip gözlemlere çoklu iç ilişkide etkili gözlem(ler) denir. Analizde bu tip gözlemlerin varlığının araştırılması sağlıklı sonuçlar elde edebilmek için oldukça önemlidir Çoklu İç İlişki İçin Çözüm Yöntemleri Çoklu iç ilişki problemini ortadan kaldırmak için önerilen yöntemler genel olarak ek verinin toplanması, modelin yeniden belirlenmesi ve EKK den farklı tahmin yöntemlerinin kullanılmasıdır. Ek Verinin toplanması: Farar ve Glouber (1967) ve Silvey (1969) çoklu iç ilişki problemini ortadan kaldırmak için ek verinin toplanmasını önermişlerdir. Fakat ekonomik kısıtlamalardan veya sürecinin örnekleme için yeterince uzun bir işleyişe sahip olmamasından dolayı ek veri toplamak her zaman mümkün olmayabilir. Modelin Yeniden Belirlenmesi: Çoklu iç ilişkinin nedeni model seçiminden kaynaklanabilir, örneğin ilişkili açıklayıcı değişkenlerin kullanılması gibi. Bu gibi durumlarda ya açıklayıcı değişkenler yeniden tanımlanır ya da ilişkili açıklayıcı değişkenlerden biri çıkarılır. Fakat açıklayıcı değişkenlerden birinin çıkartılması modelin etkinliğini azaltabilir. Çünkü çoklu iç ilişki olsa bile değişkenler birbirini tam temsil etmeyebilirler (Lipovetsky ve Conklin, 2001). Açıklayıcı değişkenlerin her biri uyumda ve bağımlı değişkenin yapısını açıklamada özel bir role sahip olabilir. Alternatif Kestirim Yöntemlerinin Kullanılması: Regresyon analizinde, regresyon katsayılarının tahmini ile ilgileniyorsak EKK en klasik yöntemdir. EKK, yansız bir kestirici ve en iyi lineer yansız kestirici özelliği belli varsayımlar gerektiriyordu. Bunlardan en önemlisi açıklayıcı değişkenlerin lineer bağımsız oluşuydu, bunun sağlanmaması durumunda çoklu iç ilişki problemiyle karşılaşırız. Çoklu iç ilişki olması durumunda EKK hala yansızdır fakat varyansı çok büyüktür. Bu problemi ortadan kaldırmak için önerilen tahmin metotları 10

26 1.GİRİŞ Hasan ERTAŞ yanlı kestiricilerin ortaya çıkmasına ve bunların incelenmesine neden olmuştur. Üçüncü bölümde bazı yanlı kestiriciler ve onların özellikleri ele alınacaktır Sapan Değer (Outlier) Regresyon analizinde önemli bir varsayım da seçilen modelin verideki tüm gözlemler için uygun olmasıdır. Fakat uygulamada bir veya birden çok gözlem, verinin çoğunluğunun oluşturduğu modelden farklılık gösterir. En küçük kareler kestiricisi farklı davranan gözlemlere karşı çok hassas olduğundan, tüm gözlemlerin regresyon sonuçları üzerinde eşit etkili olması varsayımının geçerli olup olmadığının araştırılması önemlidir. Bu varsayımlardan tüm gözlemler güvenilir ve regresyon sonuçlarının belirlenmesinde yaklaşık olarak eşit etkiye sahiptir varsayımının sağlanmaması durumunda bu probleme neden olan gözlemlerin belirlenmesi; modelin uygunluğu, güvenirliği ve kararlılığı için gereklidir. Verilerde bir veya birden fazla gözlemlerin çıkarılması uydurulmuş modelde (kestirilmiş regresyon katsayıları, uydurulmuş değerler, t-testi, ) önemli değişikliklere neden oluyorsa bu tip gözlemlere etkili gözlemler (influential observations) denir. En genel manada verilerin homojen çoğunluğu tarafından önerilen modele uyumsuzluk gösteren gözlem veya gözlemlere sapan değer (outlier) denir. Sapan değerler regresyon analizi sonuçları üzerinde yaptıkları etkilere bağlı olarak; bağımlı değişken yönünde (y- yönünde) sapan değerler, bağımsız değişkenler yönünde (X-yönünde ) sapan değerler, hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler (XY-yönünde) ve etkili gözlemler (influential observations), olmak üzere dört grupta incelenir. 1. Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemlere y-yönünde sapan değerler denir. Regresyonda, y- ekseni yönünde sapan değerlere aykırı değer denir. 2. X-uzayında veri kümesinden uzakta bulunan noktalar, X-yönünde sapan değerler (high leverage points) denir. X- yönündeki sapan değerler ikiye ayrılırlar. Kötü (Bad leverage) kaldıraç noktası: Regresyon doğrusunun eğimini çok fazla değiştiren X- yönündeki sapan değerlere kötü kaldıraç noktası denir. 11

27 1.GİRİŞ Hasan ERTAŞ İyi (good leverage) kaldıraç noktası: Regresyon katsayılarının doğruluğunu arttıran X- yönündeki noktalara iyi kaldıraç noktası denir. 3. Hem X- uzayındaki hem de y- uzayındaki veri kümesinden uzakta bulunan noktalara hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler denir. 4. Veri kümesindeki diğer gözlemlerle karşılaştırıldığında tek tek ya da hep beraber kestirilmiş regresyon denklemine etki eden gözlemlere etkili gözlemler (influential observations) denir. Bir başka ifade ile, çözümlemeden bir veya birden fazla gözlem çıkartıldığında hesaplanan çeşitli değerleri (katsayıları, standart hataları, t-değeri vb) önemli ölçüde değiştiren gözlemlere etkili gözlemler denir Yukarıdaki sapan değer tanımlarını daha iyi açıklayabilmek için aşağıdaki örneği inceleyelim: Şekil 1.2. Sapan Değer Türleri Arasındaki Farklılıkları Gösteren Grafiksel Gösterim Şekil 1.2. deki 3,4 ve 5 numaralı gözlemler X- yönünde sapan değerlerdir. Bunlardan 3 numaralı gözlem iyi kaldıraç noktası, 4 ve 5 numaralı gözlemler kötü kaldıraç noktalarıdır. 1 ve 2 numaralı gözlemler y- yönünde sapan değerlerdir. Ayrıca 4 ve 5 numaralı gözlemler hem X- yönünde hem de y yönünde sapan değerlerdir. Şekil 1.1 de aykırı değer olan 1 ve 2 numaralı gözlemler karşılaştırıldığında 1 numaralı gözlemin yarattığı etki oldukça büyüktür; 2 numaralı gözlemin ise etkili gözlem 12

28 1.GİRİŞ Hasan ERTAŞ olduğu tartışılır. X- yönünde sapan değer olan 3,4 ve 5 numaralı gözlemlerde 4 ve 5 numaralı gözlem çok etkilidir. Çünkü bu gözlemlerin hem X değerleri hem de y değerleri regresyondaki ilişkiyle uyuşmamaktadır. 3 numaralı gözlem ise y değerinin regresyondaki ilişki ile uyumlu olması dolayısıyla etkili bir gözlem değildir. y-yönündeki, X-yönündeki ve etkili gözlemler arasındaki ilişki aşağıdaki gibidir (Chatterjee ve Hadi, 1988): 1. Etkili gözlemler genellikle aykırı değer ya da yüksek leverage gözlemlerdir 2. y-yönündeki sapan değerler etkili gözlem olmayabilir. 3. Yüksek leverage gözlemler etkili gözlem olmayabilir Maskeleme (Masking) ve Süpürme( Swamping) Problemi Maskeleme problemi, veride sapan değer olmasına karşın bu gözlemlerin belirlenememesidir. Bu genellikle bir sapan değerin, verideki diğer sapan değerler tarafından gizlenmesiyle ortaya çıkar. Bazı gözlemler ise sorunsuz olmalarına karşın, sapan değer olarak belirlenebilir (Swamping problemi). Bu ise genellikle verideki gerçek sapan değerlerin uydurulmuş regresyon doğrusunu kendilerine doğru çekmeleri ve böylece gerçek gözlemlerin uydurulmuş doğrudan uzaklaşmaları nedeniyle ortaya çıkar. Eğer veride sadece bir sapan değer varsa bu problemle karşılaşılmaz fakat birden fazla sapan değer olması durumunda oldukça sık karşılaşılabilecek bir problemdir. 13

29 1.GİRİŞ Hasan ERTAŞ 14

30 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2. EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Regresyon analizinde verilerde sapan değer veya sapan değerler olması durumunda kestirilen yöntemin varsayımlarında görülen sapmalar EKK kestiricilerinin istediğimiz özelliklere sahip olmamasına neden olacaktır. Veriler sapan değer içerdiğinde önümüze iki seçenek çıkacaktır. Birincisi klasik tanılama (diagnostics) yöntemleriyle sapan değerlerin bulunması, çıkarılması ve kalan gözlemler üzerinde klasik yöntemlerle kestirim yapılması, diğeri ise sağlam (roboust) yöntemleri kullanarak analiz sonuçları üzerinde büyük etki sahibi olan sapan değerlerin etkilerinin azaltılmaya çalışılmasıdır. Biz bu bölümde klasik tanılama yöntemlerini ele alacağız Bir Gözlemin Regresyon Doğrusu Üzerindeki Etkisi X- Yönünde Sapan Değerleri Belirleyen Ölçüler Şapka Matrisi X-uzayındaki veri kümesinden uzakta bulunan noktalar X-yönünde sapan değerler olarak adlandırmıştık. = ( ) ifadesiyle tanımlanan H şapka matrisinin köşegen elemanları olan h = ( ) ifadesini kullanarak X uzayının uzağındaki noktalar belirlenir. Bu ölçü için eşik değeri vermeden önce şapka matrisinin özelliklerini inceleyelim. X, tipinde açıklayıcı değişkenler matrisi ve = ( ) şapka matrisi olmak üzere; 1) H simetrik ve idempotent bir matristir ( = ve = ). 2) Trace(H)=rank(H)=p 3) 0 h 1 =1,2,, 4) h + 1 =1,2,, 15

31 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 5) =(, ) ve ; n ve ; n ( ) tipinde tam kolon ranklı matrisler olsun. Bu durumda X için şapka matrisi = ( ) olmak üzere; H= +(I- ) [ (I H ) ] (I ) şeklinde hesaplanır. Sonuç olarak büyük leverage (h ) degerine sahip noktalar X uzayı uzağındaki noktalardır ve bu nedenle h bu gözlemleri belirlemek için kullanabilecegimiz bir ölçüdür. Bu ölçü için eşik değer ; h > olan gözlemler yüksek leverage noktalar olarak düşünülebilir. Daha kaba olarak ifade edilirse h noktaların X uzayının uzağında olduğu söylenebilir. >1 eşitliğini sağlayan Ağırlıklı Uzaklık Kareler Toplamı (Weighted Sum of Squares Distance) Daniel ve Wood (1980); X uzayında uzaktaki noktaları tespit etmek için bir başka ölçüt olan ağırlıklı uzaklık kareler toplamını (AUKT) kullanmayı öngörmüşlerdir. ; parametre, ; rezidü vektörü, = olmak üzere; AUK = =1,2,, biçiminde hesaplanan değerler artan sıraya göre dizilip değerler arasında ani bir sıçrama olup olmadığı kontrol edilir. Böyle bir durum söz konusu ise bir ya da birden fazla yüksek sapan değerin varlığından söz edilir. Eğer, AUK değerleri küçükten büyüğe doğru düzgün bir şekilde artıyorsa X- uzayında çok uzakta olan bir nokta bulunmuyor demektir. Bu nedenle, özellikle AUK değerleri yüksek olan gözlemler dikkatle incelenmelidir. 16

32 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ Mahalanobis Uzaklığı Sapan değerleri tespit etmede kullanılan klasik bir ölçüde Mahalanobis Uzaklığı dır. Bu uzaklık, lerin oluşturduğu çok değişkenli bir veri kümesinde bir gözlemin veri kümesinin merkezine olan uzaklığını belirtir., gözlem vektörü, =(1 ) =(1 ) biçiminde tanımlanırsa, sırasıyla aşağıdaki gibidir. nin ortalama vektörü ve kovaryans matrisi = (2.1) = ( ) ( ) (2.2) (2.1) ve (2.2) den i-inci gözlemin Mahalanobis Uzaklığı, = ( ) ( ) =1,2,, (2.3) biçiminde hesaplanır. Bununla birlikte, veri kümesi normal dağılımdan geliyorsa i-inci gözlemin bir sapan değer olup olmadığını belirlemek için değerleri serbestlik dereceli ve 0.95 güvenirlikteki ki-kare değeriyle karşılaştırılabilir y-yönünde Sapan Değerleri (Aykırı Değer) Belirleyen Ölçüler Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemleri y-yönünde sapan değerler olarak adlandırmıştık. y-yönünde sapan değerlerin belirlenebilmesi için temel olarak kullanılan ölçü rezidülerdir. 17

33 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ Rezidüler Regresyon sonuçlarının standart analizi temel varsayımlara dayalıdır. Doğru analizin yapılması için bu varsayımların geçerliliğinin kontrol edilmesi gerekir. Bu varsayımlardan birisi de = - =1,2,, olarak tanımlanan rezidülerdir. Rezidüler, regresyonda sapan değerlerin belirlenmesinde önemli rol oynar. Rezidü vektörleri (e),hata vektörleri (ε) cinsinden; = ( ) ile ifade edilir. Bu eşitlikte e nin için uygun bir nicelik olabilmesi için nin köşegen üzerinde olmayan noktalarının küçük olması gerekir. Hata terimleri, birbirleri ile ilişkisiz ve aynı varyansa sahip olmalarına rağmen rezidü terimleri lerin bagımsızlık ( köşegen olmadıkça), aynı varyansa sahip olma ( nin köşegen elemanları eşit olmadığı sürece ) özellikleri yoktur. Sonuç olarak rezidülerin lerin yerini alabilmesi için in satırlarının homojen bu nedenle nin köşegen elemanları yaklaşık olarak eşit ve köşegen haricinde bulunanlar da yeteri kadar küçük olmalıdır. Rezidüler dört grupta incelenir: 1) Standartlaştırılmış Rezidüler: Rezidünün varyansı yaklaşık olarak ile tahmin edildiğinden standartlaştırılmış rezidü; = =1,2,, (2.4) olarak elde edilir. Standartlaştırılmış rezidüler sıfır ortalamalı ve yaklaşık olarak birim varyansa sahiptir. 2) Studentized Rezidü:, şapka matrisinin -inci köşegen elemanı ve, şapka matrisinin ij-inci elemanı olmak üzere; Var( )= (1-h ) =1,2,, Cov(, )= - h =1,2,, 18

34 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 0 h 1 olduğundan rezidünün varyans tahmini için nin kullanımı aşırı tahmine (overestimate) neden olacaktır. Bu nedenle yerine studentized rezidüler, = ( ) =1,2,, önerilir. Büyük h ve büyük rezidüye sahip herhangi bir gözlem EKK kestirimi üzerinde etkili olacağından studentized rezidü önerilir. Problemsiz gözlemlerde değerleri [ 3,+3] aralığında yer alır (Montgomery ve Peck, 1992). 3) PRESS Rezidü: Standartlaştırılmış ve studentized rezidüler dışında sapan değerleri belirlemede bir diğer etkili ölçüm PRESS rezidü yani ön tahmin hata kareler toplamıdır. i-inci press rezidüyü hesaplamak için i-inci gözlem hariç diğer tüm n-1 gözlemlerden ( ) hesaplanır. Buna karşılık gelen ön tahmin hatası ( ) = ( ) =1,2,, biçiminde hesaplanır. Bu rezidü, i-inci PRESS rezidü olarak adlandırılır. Bu işlem her bir gözlem için =1,2,, tekrarlanarak ( ), ( ),, ( ) elde edilir. Bununla birlikte PRESS rezidüler; ( ) = =1,2,, yardımıylada hesaplanabilir. Bir rezidü ile PRESS rezidü arasındaki olası büyük fark, bu gözlem olmaksızın modelin zayıfladığını gösterir (Montgomery ve Peck, 1992). 4) R-Studentized Rezidü: Stundentized rezidü ler hesaplanırken nin bir tahmini olan kullanılmıştı. Bu ölçüme iç veya dahili (internal) rezidü denir. nin tahmini için bir diğer yaklaşımda i-inci gözlemin veriden atılmasına dayanır. Bu şekilde elde edilen nin tahmini 19

35 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ ( ) = ( ) =1,2,, = ( ) (2.5) olmak üzere, R-Studentized Rezidü; = ( ) ( ) =1,2,, (2.6) ile verilir. Buna da dış (externally) rezidü denir. R-Studentized türü rezidülerin, Studentized türü rezidülere tercih edilmesinin nedenleri şunlardır (Chatterjee ve Hadi, 1986): - nin t dağılımından ( ( ) ) gelmesi, -Büyük sapmaları daha açık yansıtması, - ( ) nin i-inci gözlemdeki büyük hataları düzeltmede sağlam bir kestirici olmasıdır Ortalama Değişim (Mean-Shift) Aykırı Değer Modellenmesi j- inci gözlemin aykırı değer olup olmadığının araştırılmasında W ile gösterilen yeni bir bağımsız değişken tanımlanmıştır. W nın i-inci elemanı i j iken =0 ve j-inci elemanı =1 olarak belirtilir. in j-inci satırı çıkarıldığında, = + denkleminin kestirimi tüm gözlemler için ve W üzerinden, = + + = 20

36 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ denkleminin kestirimi elde edilebilir. nin beklenen değeri dan a kadar farklıdır. Burada, W nın katsayısı olup ortalama değişim olarak adlandırılmaktadır. j-inci değerin aykırı değer olup olmadığına karar vermek için : =0 : 0 hipotezinin test edilmesi gerekir. Eğer hata terimleri normal dağılımdan geliyorsa, test istatistiği n-k-1 serbestlik derecesi ile t- dağılımıdır. Sıfır hipotezinin reddi, j-inci gözlemin aykırı değer olduğunun göstergesidir (Weisberg, 1985) X ve y-yönündeki Sapan Değerleri Belirleyen Ölçüler Hem x-uzayındaki hem y-uzayındaki veri kümesinden uzakta bulunan noktaları hem bağımlı hem de bağımsız değişkenler yönünde sapan değer olarak adlandırmıştık. İyi bir veri analizi için rezidüler mutlaka incelenmelidir. Ancak sadece rezidülerin incelenmesi etkili gözlemlerin saptanmasında özelliklede yüksek leverage noktaları için yeterli değildir. Bazı ölçümler hem h hem de rezidüler hakkında bilgi verebilir. Bu ölçülerden biri; Z=(X:Y) eklemeli matris olmak üzere; =Z( ) şapka matrisinin köşegen elemanlarıdır. Şapka matrisinin (5) özelliğinden, =X ve =y alınırsa; = + olarak elde edilir. matrisinin i-inci köşegen elemanı; h = h + =1,2,, şeklinde tanımlanır. h, h ya da büyük olduğunda büyük olacaktır. Dolayısıyla h değeri büyük olan bir gözlemin sapan değer olduğu söylenebilir; ancak 21

37 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ X-yönünde ya da y-yönünde sapan değer olup olmadığı konusunda kesin bir yargıya varılamaz. Diğer bir ölçü Hadi (1992) tarafından verilen ölçüsüdür. Bu ölçü, = olmak üzere; = + =1,2,, (2.7) ile tanımlanır. (2.7) ile verilen eşitliğin ilk terimi potansiyel fonksiyon olup, X- yönündeki sapan değerlerin; ikinci terimi ise standartlaştırılmış rezidünün fonksiyonu olup, y-yönündeki sapan değerlerin belirlenmesini sağlar. Dolayısıyla veya h ya da her ikisi de büyükse büyük olacaktır. Büyük değerine sahip bir gözlem, genel olarak tüm regresyon sonuçları üzerinde daha etkilidir. nin bir rastgele değişken olduğu kabul edilirse; mean( )+ ( ) (c; 2 ya da 3 gibi sabit olmak üzere) ifadesinin büyük değerleri sapan değer olarak düşünülebilir (Hadi, 1992) Etkili Gözlemleri Belirleyen Ölçüler Veri kümesindeki diğer gözlemlerle karşılaştırıldığında tek tek ya da grup halinde kestirilmiş regresyon denklemine etki eden gözlemleri etkili gözlemler (influential observations) olarak adlandırmıştık. Tüm gözlemler regresyon sonuçları üzerinde eşit etkiye sahip olmayabilir. Bunun yanında bir gözlem veya gözlemler bazı regresyon sonuçları için etkili iken tüm regresyon sonuçları için etkili olmayabilir. Örneğin ya da nın varyansı üzerinde, uydurulmuş değerler üzerinde etkili olabilir. Dolayısıyla ne üzerinde etkili? sorusu önemlidir. O halde araştırmacının öncelikle bu soruyu yanıtlayarak çalışmaya başlaması gereklidir. Bununla birlikte bir gözlem regresyon sonuçları üzerinde etkili ise y-yönünde sapan değer, X-yönünde sapan değer ya da ikisinin kombinasyonuda olabilir. 22

38 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ DFFITS Ölçüsü Welsch ve Kuh (1977) de belirttiği bu ölçü, veri kümesinden elde edilen i-inci kestirilmiş değerden i-inci gözlem çıkartılılarak elde edilen i-inci kestirilmiş değerin arasındaki fark alınarak tanımlanmıştır. = ( ) ( ) =1,2,, (2.8) Bu ifade de ( ), (2.5) eşitliği ile verildiği gibi ve ( ), i-inci gözlem çıkartıldıktan sonra elde edilen modeldeki i-inci kestirim değeridir. Bu ölçü için eşik değer, 2 olarak bulunmuştur (Besley ve ark. 1980). Yani; 2 olan gözlemlerin kestirim üzerinde etkili olduğu düşünülür. DFFITS uzaklığı = =1,2,, şekilde de ifade edilir. yukarıdaki eşitlikten de görüldüğü gibi bu ölçü, hem şapka matrisinin köşegen elemanlarından hem de R-student türü rezidülerden etkilenmektedir. Bir başka ifade ile bu uzaklık, yüksek leverage ve aykırı değerliliklerle yakından ilgilidir Welsch Uzaklığı Welsch (1982) verdiği bu ölçü, = ( ) ( ) = =1,2,, şeklinde ifade edilir. n> 15 olan regresyon modellerinde kullanılan bu ölçü, için eşik değer 3 dir. Yani, >3 olan gözlemler etkili gözlem olarak düşünülebilir (Chatterjee ve Hadi, 1986). 23

39 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ DFBETA ve DFBETAS Ölçüsü DFBETA ve DFBETAS ölçüleri; i-inci gözlem, veriden çıkarıldığında hesaplanacak olan yeni regresyon denkleminin parametrelerinde meydana gelecek olan değişimi hesaplamak üzere kullanılırlar. DFBETA, açıklayıcı değişken matrisi, e rezidü vektörü, h şapka matrisinin i-inci köşegen elemanı olmak üzere; = - ( ) = =1,2,, (2.9) şeklinde tanımlanır (Besley ve ark., 1980). (2.9) eşitliğinde elde edilen değer, çok büyük ise i-inci gözlemin, parametre kestirimi üzerinde etkisinin büyük olduğu söylenir. Benzer şekilde i-inci gözlemin j-inci parametre değerini ne kadar değiştirdiğinin ölçüsü olarak kullanılır ve = ( ) ( ) ( ) = ( ) =1,2,, (2.10) ( ) olarak ifade edilir., ( ) matrisinin j-inci köşegen elemanıdır. (2.10) daki ölçü için eşik değer, 2 olarak bulunmuştur. Yani; 2 ise i-inci gözlemin j-inci katsayı üzerinde etkili olduğu düşünülür (Besley ve ark., 1980) Cook Uzaklığı Cook (1977) nun belirttiği bu uzaklık, bütün model üzerindeki etkiyi içerir. Bir başka ifade ile Cook uzaklığı, etkiyi hem nin kestiricisinin ya olan uyumunu hem de nin geriye kalan gözlemlerden uzaklığı anlamında ele alır. Cook uzaklığı, p parametre sayısı, e rezidü vektörü, = olmak üzere; 24

40 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ = ( ) ( ( ) =1,2,, olarak tanımlanmıştır. Her bir değeri,.,, tablo değeri ile karşılaştırılarak değerlendirilir. nin kritik değerlerden büyük olduğu durumlar için i-inci gözlemin etkili gözlem olduğu kabul edilir. Bunun yanı sıra Cook ve Weisberg (1977) ile Montgomery ve Peck (1982) de >1 olduğu değerler için i-inci gözlemin etkili olduğunu belirtmişlerdir. Cook Uzaklığı; = =1,2,, olarak da ifade edilir. Cook uzaklığı, regresyon modelindeki parametre dışında yukarıdaki eşitlikten de görüldüğü gibi, hem H şapka matrisinin köşegen elemanlarından (h ) hem de student türü ( ) rezidülerden etkilenmektedir (Montgomery ve Peck, 1982). Bir başka ifade ile bu uzaklık, yüksek leverage değerlilik ve aykırı değerlilikle yakından ilgilidir Düzeltilmiş Cook Uzaklığı Cook uzaklığı nın bir başka uyarlaması olan Düzeltilmiş Cook uzaklığı, etkili gözlemlerin belirlenmesinde kullanılır. Düzeltilmiş Cook uzaklığı; = = İ =1,2,, şeklinde ifade edilir (Atkinson, 1981). Yukarıdaki ifade de değeri (2.6) ile verilen R-Student rezidüler dir. Her bir için eşik değeri 2 dir. Yani, > 2 olan gözlemler etkili gözlemdir. 25

41 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ Düzeltilmiş Cook uzaklığının, Cook Uzaklığına göre avantajları; -Düzeltilmiş Cook uzaklığının sapan değerleri belirlemede daha hassas davranması, - değerlerinin grafiksel gösterim için daha uygun olması (Chatterjee ve Hadi, 1986) COVRATIO ve FVARATIO (Varyans Oranı) Ölçüsü COVRATİO: Besley ve ark. (1980) nın belirttiği ve adını varyans kovaryans matrisinin oranlanmasından (covariance ratio) alan bu uzaklık, i-inci gözlemin nın kestirilmiş varyansı üzerindeki etkisini belirleyen bir ölçüdür. COVRATIO uzaklığı; = ( ) =1,2,, (2.11) şeklinde ifade edilir. (2.11) ifadesi ( ) = ( ) ( ) ( ) ve = ( ) ifadeleri yardımıyla; = ( ) ( ) ( ) { ( ) } =1,2,, olarak düzenlenir. Bu ölçü için eşik değer, 1±3 değeriyle karşılaştırılır. Yani; >1+3 olan gözlemler ya da <1 3 olan gözlemler uzaklığı; nın kestirilmiş varyansı üzerindeki etkili gözlemdir. COVRATİO 26

42 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ = =1,2,, olarak da ifade edilir. Yukarıdaki ifade de görüldüğü gibi bu ölçü, yüksek leverage noktalar (h ) ve Student rezidüler ( ) den etkilenmektedir. İ >1 olması, i-inci gözlemin parametre kestiricilerinin doğruluğunu arttırdığı; İ <1 olması durumu ise, i-inci gözlemin parametre kestiricilerinin doğruluğunu azalttığı şeklinde yorumlanır (Rawlings ve digerleri, 1998). FVARATIO: COVRATIO ölçüsünün tanımlanmasındakine benzer bir mantıkla, Besley ve ark. (1980) tarafından tanımlanan bu ölçü, i gözlemin nın kestirilmiş varyansı üzerindeki etkisini belirleyen bir ölçüdür. FVARATIO ölçüsü; = ( ) ( ) =1,2,, (2.12) olarak tanımlanır. Burada ( ), i-inci gözlem çıkartıldıktan sonra elde edilen uydurulmuş değerler vektörünün i-inci gözlemini ifade eder. (2.12) ifadesinde; ( ) = ( ) =1,2,, ( ) = h =1,2,, değerleri yerine yazılırsa; = ( ) ( ) =1,2,, olarak düzenlenir. Bu ifade ( ) nin p-inci kuvveti dışında, COVRATIO ölçüsü ile aynıdır. 27

43 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ Andrews-Pregibon İstatistiği: Andrews ve Pregibon (1978), nın güven elipsoidinin hacminin matrisinin determinantına bağlı oluşu ve büyük rezidüye sahip gözlemlerin veri kümesinden atılmasıyla rezidü kareler toplamı = ( ) değerinde büyük bir düşüş olacağı düşüncesinden hareketle i.gözlemin model üzerindeki etkisi matrisinin determinantı ile değerlerinde meydana gelen değişimi ölçerek elde etmek istemiş ve bu nedenden dolayı; = ( ) ( ) { } =1,2,, (2.13) ifadesini tanımlamıştır. (2.13) eşitliğiyle belirtilen Z matrisi, 1 1 Z= 1 (2.14) biçiminde tanımlanmaktadır. ( ) ise (2.14) ile tanımlanan matrisin i.satırının çıkartılmasıyla elde edilen matristir. Diğer gözlemlerle karşılaştırıldığında küçük değerine sahip gözlemlerin etkili olacağı düşünülür (Chatterjee ve Hadi, 1986). Andrews-Pregibon İstatistiği; =1 h =1,2,, şeklinde de hesaplanır. Buradan da görüleceği gibi değerlerle ve aykırı değerlerle yakından ilgilidir. değerleri, yüksek leverage 28

44 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 2.2. Birden Fazla Gözlemin Regresyon Doğrusu Üzerindeki Etkisi Tek bir sapan gözlemin belirlenebilmesi için bir çok yöntem tanımlanmıştır. Bu yöntemlerin çoğu gözlemin veri kümesinden çıkarılması temeline dayanmaktadır. Fakat bazı durumlarda bir sapan gözlem bir diğerini çeşitli biçimlerde etkileyebilmektedir. Bu etkiler maskeleme ve swamping problemine neden olmaktaydı. Bu problem nedeniyle, gözlem gruplarının potansiyel etkilerini ve dolayısıyla sapan gözlem olup olmadıklarını incelemek için Bölüm 2.1 de X- yönünde sapan değer, y-yönünde sapan değer ve etkili gözlem olarak verilen ölçüleri, birden fazla gözlem için genelleştirebiliriz Cook Uzaklığı Tek bir gözlemin etkisinin incelenmesi için, Cook (1977) tarafından tanımlanan Cook Uzaklığı ( ), birden fazla gözlem etkisi için I, etkisi incelenen m gözlemin için indis kümesini ifade etmek üzere; = ( ) ( ( ) olarak tanımlanır (Cook ve Weisberg, 1982). Bu eşitlik bir takım düzenlemelerden sonra; = ( ) olarak ifade edilir. 29

45 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ MDFFITS Ölçüsü Bu ölçü tek bir gözlemin değil de şüphe edilen birden fazla gözlemin veri kümesinden çıkartılıp elde edilen kestirilmiş değerlerle, tüm veriler kullanıldığında bulunan kestirilmiş değerler arasındaki farklılığın incelenmesidir. Bu ölçü; ( ) = ( ) ( ( ) şeklinde ifade edilir. Bu ifadede de bir takım düzeltmeler yapıldıktan sonra; ( ) = (1 ) ifadesi elde edilir. Burada I, m sayıda çıkartılacak gözlemlerden oluşan indis kümesi, ( )ise m sayıdaki gözlem çıkartıldıktan sonra elde edilen parametre kestiricilerinin oluşturduğu sütun vektörünü göstermektedir (Besley ve ark., 1980). MDFFITS ölçüsü, diğer gözlem kümeleri ile karşılaştırıldığında büyük değerler veren gözlem kümelerinin etkili gözlemlere sahip olduğunu belirtir Ölçüsü Besley ve ark.(1980) tek bir satır çıkartıldığında ( ), uydurulmuş değerine nasıl bir değişim olduğunu ölçmek için (2.8) ölçüsünü tanımlamışlardı. Benzer şekilde birden fazla gözlem çıkartılması durumunda ölçü; = ( ) ( ( ) ( ) ile ifade edilir. Bir takım düzenlemeler yapılırsa; = ( ) ( ) 30

46 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ şeklinde ifade edilir Ölçüsü Welsch (1982) sonsuz büyüklükteki örnekleme gözlemlerin bir alt kümesinin eklenmesi ile ortaya çıkacak etkinin uygun şekilde normlu ölçüsüne sonlu bir örneklem yaklaşımı verdi. Bu ölçü; = ( ) ( ) ( ) ( ) (2.15) olarak tanımlanır. Burada n; gözlem sayısı, I; m sayıda çıkartılacak gözlemlerden oluşan indis kümesidir ve ise; = ( ) ( ) ( ) ( ) dır. (2.15) ifadesinde gerekli düzenlemeler yapılırsa; = ( ) ( ) ( ) ifadesi elde edilir COVRATIO Ölçüsü Bu ölçü (2.11) de ifade edilen COVRATIO ölçüsünün, birden fazla gözlemin çıkartılmasıyla elde edilmiştir. Bu ölçü; ( ) = ( ) ( ) ( ) { ( ) } (2.16) 31

47 2.EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ olarak tanımlanır. Burada ( ), m sayıdaki gözlem çıkartıldıktan sonra elde edilen varyans kestiricisidir Besley ve ark.,(1980). (2.16) ile verilen ölçü, diğer gözlem kümeleri ile karşılaştırıldığında çok büyük ya da çok küçük değerler veren gözlem kümelerinin varyans-kovaryans matrisi üzerinde büyük etkiye sahip olduğunu belirtir Andrews-Pregibon İstatistiği Bu ölçü, Andrews ve Pregibon (1978) un ifade ettiği ve (2.13) de verilen ölçüsünün (2.14) de gösterilen Z matrisinden birden fazla satırın çıkarılmasıyla elde edilmiş şeklidir. Burada satır çıkarma ile kastedilen durum, birden fazla sapan gözlemlerin belirlenebilmesi için etkili olduğundan kuşku duyulan gözlemlerin aynı anda veri kümesinden çıkartılmasıdır. Bu ölçü; ( ) = ( ) ( ) { } (2.17) şeklinde ifade edilir. Bu ölçü şu şekilde de yorumlanır: 1 ( ) şeklinde tanımlanan ve nin oluşturduğu bir elipsin hacmindeki göreli değişimle ilişkilidir (Draper ve John, 1981). (2.17) deki determinant değerleri özünde hacim değerleri olarak düşünülür. Bu nedenle, diğer gözlem kümeleri ile karşılaştırıldığında küçük ( ) değerlerini veren gözlem kümeleri etkili gözlemlere sahiptir denilebilir. 32

48 3. YANLI KESTİRİCİLER Hasan ERTAŞ 3. YANLI KESTİRİCİLER Açıklayıcı değişkenler arasında lineer ilişki olması çoklu iç ilişki problemine neden olmaktadır. Bu durumda neler yapılabileceği Bölüm de verilmişti. Çoklu iç ilişki problemi olması durumunda EKK kestiricisi hala yansızdır fakat varyansı çok büyüktür. Bu nedenle gerçek değerinde uzaklaşır. Bu problemi ortadan kaldırmak için önerilen kestirim yöntemleri yanlı kestiricilerin ortaya çıkmasına ve incelenmesine neden olmuştur. Bu bölüm de bazı yanlı kestirim yöntemleri incelenecektir Yanlı Kestirim Yöntemleri EKK kestiricisi, standart regresyon varsayımlarının sağlanması durumunda yansız kestiriciler arasında minumum varyansa sahip olan kestiricidir. Ancak bu varsayımlarının hepsi birden sağlanmadığında, EKK kestiricisinin varyansının minumum olduğu söylenemez. (Çoklu iç ilişki probleminin varlığında daha küçük varyanslı bir kestirici elde etmenin bir yolu, nın kestiricisinin yansız olması özelliğini değiştirmektir.) nın gibi öyle bir yanlı kestiricisi bulunabilir ki; yansız dan daha küçük varyansa sahiptir. Hata karaler ortalaması ( ); ve arasındaki uzaklığın karesinin beklenen değeri olup kestiricisi için = şeklinde ifade edilir. Hata kareler ortalaması ( ), kestiricisinin varyans ve yanlılık teriminin karesinin toplamı olarak; = + şeklinde ifade edilir. Yanlı kestirim yöntemlerinde amaç küçük bir yanlılık terimi kullanarak varyansı küçük bir kestirici elde etmektir. Buna bağlı olarak yanlı kestirici 33

49 3. YANLI KESTİRİCİLER Hasan ERTAŞ için daha dar güven aralıkları elde edilecek ve böyle özellikle çoklu iç ilişkinin varlığı durumunda parametresinin daha uygun bir kestiricisi elde edilmiş olacaktır. EKK kestiricisine alternatif olarak önerilebilen çok sayıda yanlı kestirici vardır. Bunlar ridge ve genelleştirilmiş ridge, temel bileşenler, ondalık rank, modified ridge, Stein, Liu ve genelleştirilmiş Liu ve modified Liu kestiricileridir Ridge Kestiricisi Hoerl ve Kennard (1970) çoklu içi ilişki probleminin EKK kestiricisi üzerinde olumsuz etkileri nedeniyle; = ( + ), 0 (3.1) şeklinde ifade edilen ridge tahmin edicisini tanımlamışlardır ( =0 olması durumunda EKK elde edilir). Burada sabitine daraltma (shrinkage) veya yanlılık parametresi denir ve nın seçimi ridge kestiricisinin performansını etkiler. Hoerl ve Kennard (1970) ridge tahmin edicisini şu şekilde ifade etmişlerdir. herhangi bir tahmin edici olmak üzere nın hata kareler ortalaması, nın optimallik özelliğine göre; ( ) = = + = + olarak yazılabilir. Burada, yerine nın kullanılmasından dolayı kaynaklanan yanlılığın karesidir. kötü koşullu iken ile arasındaki uzaklık artmaktadır. Bu nedenle kestiricisinin uzaklığının karesini minimum yapmak isteriz. Fakat minimumlaştırma keyfi değildir. Rezidü kareler toplamının verilen belli bir seviyesi için uzaklığın karesini minimum yapmak isteriz (aynı rezidü kareler toplamına sahip pek çok tahmin edici olabilir, fakat bunlar içerisinde en 34

50 3. YANLI KESTİRİCİLER Hasan ERTAŞ küçük uzaklıklı olanı seçmek istiyoruz). >0 hata kareler toplamı için verilen bir sabit olsun. Bu durumda = + koşulunu sağlayan tahmin edicilerin bir kümesi vardır. Bu küme içerisinde en küçük uzunluklu isteriz. Yani 1/ Langrange çarpanı olmak üzere; tahminini bulmak + (3.2) ifadesini inceleriz. (3.2) nin ve 1/ ya göre türevleri + ( ) =0 (3.3) ve = (3.4) normal denklemlerini verir. (3.2) nin çözülmesiyle, (3.1) ile verilen ridge kestiricisi elde edilir Ridge Kestiricisinin Bazı Özellikleri 1. ; dan kısa bir vektördür, ( = [ + ( ) ] ve ( ), matrisinin öz değerlerini göstermek üzere; = olup yarı tanımlı matris (psd) olduğundan ( ) ve buradan olup, böylece istenilen sonuç elde edilir). 2. < ve iken 0 dır. 3. Ridge kestiricisi =0 için EKK kestiricisini vermektedir. Ayrıca ridge kestiricisi EKK kestiricisinin lineer dönüşümü olarak yazılabilmektedir (Eğer (3.1) ifadesinde = ( ) yazılırsa, = [ + ( ) ] olur). 4. Hoerl ve Kennard (1970) ridge kestiricisinin toplam varyansının k nın sürekli, 35

51 3. YANLI KESTİRİCİLER Hasan ERTAŞ monoton azalan bir fonksiyonu ve yanlılığın karesinin k nın sürekli, monoton artan bir fonksiyon olduğunu göstermiştir. Bu nedenle varyanstaki azalma yanlılığın karesindeki artıştan fazla olduğu sürece ridge kestiricisinin iyi bir teknik olduğu söylenebilir. = + olsun. Bu durumda = (, )= = olduğundan ridge kestiricisinin matris kareler ortalaması;, = ( + ) olur.,,,, in özdeğerleri olmak üzere skaler hata kareler ortalaması;, =, = ( ) + ( + ) (3.5) veya, =, = ( ) şeklinde ifade edilir. (3.5) teki ifadenin ilk terimi toplam varyans, ikinci terim yanlılığın karesi toplamıdır. 5. nın hata kareler ortalaması, nınkinden daha iyi olacak şekilde her zaman bir >0 vardır (Hoerl ve Kennard, 1970). 36

52 3. YANLI KESTİRİCİLER Hasan ERTAŞ k Yanlılık Parametresinin Seçimi Ridge regresyonda nın seçimi için pek çok yöntem regresyon katsayılarının kestirilmesinde önemli bir gelişme olacak şekilde önerilir. Bunlardan bazıları şu şekildedir: 1. Ridge Trace: Hoerl ve Kennard (1970), nın seçimi için ridge trace yöntemini önermiştir. Ridge trace ya karşı nin elemanlarının grafiğidir. arttıkça tahminler küçülür ve belli bir değerinden sonra durağan olurlar. nin durağan olduğu en küçük değerine uygun bir değer olarak alınır. Hoerl ve Kennard (1970) 0 1 aralığını önermiştir. Fakat her veri için bu aralık geçerli olmayabilir (Vinod ve Ullah, 1981). 2. Ridge trace subjektif bir yöntem olduğu için, nın seçimine ilişkin analitik çözümler önerilmiştir. Hoerl ve ark. (1976) tarafından önerilen iteratif yöntemde; = başlangıç değer olmak üzere, = ( ) ( ) ile verilir ve işlem ardışık olarak sürdürülür. Eğer <20. ise iteresyon sonlandırılır. 3. Hoerl ve Kennard (1970) ridge kestiricisinin EKK den daha küçük ye sahip yanlılık parametresinin kestirimi = olarak vermiştir. Burada, kanonik formda regresyon katsayısının kestiriminin maksimum değeridir. 37

53 3. YANLI KESTİRİCİLER Hasan ERTAŞ 4. Theobald (1974) her için, dan daha küçük olacak şekilde yanlılık parametresinin kestirimi = olarak ifade etmiştir. 5. Hoerl, Kennard ve Baldwin (1975) ridge kestiricisinin değerini minumum yapan = değerlerinin harmonik ortalaması = yı önermiştir. Simülasyon çalışması yaparak için ridge kestiricisi EKK den daha iyi ye sahip olduğunu göstermişlerdir. 6. Lawless ve Wang (1976) bayesian yaklaşımla = tahminini vermişlerdir. Monte Carlo simülasyon çalışması yaparak için ridge kestiricisinin den ve EKK den daha iyi bir performans sergilediğini göstermiştir. 7. Mallows (1973) tarafından verilen yaklaşım; = ( ) +2+2 [ ( + ) ] şeklindedir. Bu değeri minimum yapan optimal değeri olarak alınır. 8. McDonald ve Galarneau (1975), = ( ) olacak şekildeki yı seçmeyi önermişlerdir Genelleştirilmiş Ridge Kestiricisi 0, Hoerl ve Kennard (1970) genelleştirilmiş ridge kestiricisini = ( ), =1,2,, olmak üzere; = ( + ) olarak tanımlamıştır. Tüm değerleri eşit iken (3.1) ile verilen ridge kestiricisi elde edilir. kanonik formda regresyon katsayılarının kestirimi olmak üzere, Genelleştirilmiş ridge kestiricisinin skaler hata kareler ortalaması; 38

54 3. YANLI KESTİRİCİLER Hasan ERTAŞ = ( ) + ile verilir. Ridge kestiricisine benzer şekilde, birinci terimin toplamı varyans, ikinci terim ise yanlılığın karesine karşılık gelmektedir. Genelleştirilmiş ridge kestiricisi için de < olacak şekilde vardır ( = genelleştirilmiş ridge kestiricisinin değerini minimum yapar). Hoerl ve Kennard (1970), değerlerinin iteratif yöntemini vermiştir. nin ilk tahmini için EKK ile başlanır: =, =1,2,,. kullanılarak =,, olmak üzere başlangıç genelleştirilmiş ridge kestiricisi ( ) hesaplanır ve bunun yardımıyla bir sonra ki değeri bulunur: =, =1,2,,. Bu şekilde durağan parametre kestirimleri elde edilene kadar iterasyona devam edilir. Durağanlık bir ölçüsü olarak regresyon katsayılarının kestirimlerinin uzunluklarının karesi alınır. Eğer 1 den adımına geçerken parametre kestirimlerinin boylarının karesinde herhangi bir değişiklik olmuyorsa iterasyon sonlandırılır. Aksi taktirde devam edilir. Genelleştirilmiş ridge kestiricide farklı değerleri olduğundan lerin seçimi için ridge trace kullanılmaz Modified Ridge Kestiricisi Swindel (1976) ridge kestiricisi ile ön (prior) bilgiyi birleştirerek modified ridge kestiricisini tanımlamıştır: 39

55 3. YANLI KESTİRİCİLER Hasan ERTAŞ (, ) = ( + ) ( + ), 0 (3.6) burada, boyutlu stohastik olmayan bir vektör olup üzerindeki ön bilgiyi temsil edecek şekilde seçilmelidir. (, ) nın bazı özellikleri şu şekildedir: 1. (, ), aynı rezidü kareler toplamına sahip nın kestiriciler sınıfı içerisinde en yakın olandır. Yani = olacak şekilde yi minimum yapmak isteriz. 1 Lagrange çarpanı olmak üzere; = + nın ya göre türevini alıp sıfıra eşitlersek (3.6) ile verilen (, ) yi elde ederiz. 2. (, ), a eşit uzaklıktaki nın kestiriciler sınıfı içerisinde en küçük rezidü kareler toplamına sahiptir. Yani (, ), = olacak şekilde yı minimum yapan kestiricisidir. = + nın ya göre türevini alıp sıfıra eşitlersek (3.6) ile ifade edilen (, ) elde ederiz. 3. (0, ) = Swindel (1976) (, ) ın EKK den daha küçük bir ye sahip olacak şekilde bir k nın varlığını göstermiştir. Ayrıca, dan bağımsız bir rastgele vektör iken de böyle bir k nın var olduğunu ispatlamıştır., dan bağımsız değilse böyle bir nın varlığı ise garanti değildir Temel Bileşenler Kestiricisi Çoklu iç ilişkiyi gidermek için öne sürülen yanlı tahmin kestiricilerden birisi de temel bileşenler kestiricisidir. İlk olarak Hotelling (1933) tarafından incelenmiştir. Bu yöntemde, korelasyon matrisinin temel bileşenler olarak adlandırılan yapay 40

56 3. YANLI KESTİRİCİLER Hasan ERTAŞ değişkenlerin bir kümesi üzerinde EKK kestiricisi uygulanır. Varyansta önemli bir azalma olacak şekilde temel bileşenlerin belli bir sayısı atılır. (1.1) ile verilen = + modeli ve, kolonları matrisinin özdeğerlerine karşılık gelen özvektörlerden oluşan tipinde ortogonal matris olmak üzere; = + şeklinde ifade edilir. Burada = ve = olarak alınırsa, (1.1) modelinin dönüşmüş ifadesi; = + (3.7) ile verilir. (3.7) modeline, (1.1) modelinin kanonik formu denir., in -inci kolonu ve, nin -inci kolonunun elemanları olmak üzere = den dolayı nin -inci kolonu; = şeklinde ifade edilir. Açıklayıcı değişkenlerin ortogonal kümesi olan nin kolonlarına, =,,, temel bileşenler denir. = ( ) = olduğundan in özdeğeri temel bileşenindeki değişimi ölçer. 0 ise temel bileşeni model üzerinde küçük bir etkiye sahiptir. Yaklaşık olarak son ( ) özdeğer sıfıra yakınsa bu özdeğerler analiz dışı tutularak parametresinin EKK kestiricisi elde edilir. nın temel bileşenler kestiricisi =,,, ; = = = =1 ve = = =0 olmak üzere ; = ş eklinde ifade edilir. Buradan nın temel bileşenler kestiricisi; 41

57 3. YANLI KESTİRİCİLER Hasan ERTAŞ = olarak elde edilir. Temel bileşenler kestiricisi Bölüm ile verilen genelleştirilmiş ters kestiricinin özel halidir. Bu nedenle genelleştirilmiş ters kestiricisi için elde edilen sonuçlar aynı zaman temel bileşenler kestiricisi için özelleştirilebilir Genelleştirilmiş Ters (Ondalık Rank) Kestiricisi Ondalık rank kestiricisi, Marquardt (1970) tarafından öne sürülen diğer bir yanlı kestiricidir. Bu kestirici matrisinin genelleştirilmiş tersini kullanarak diğer yanlı kestiricilerde olduğu gibi bir miktar yanlılığa izin vererek, varyansta önemli derecede azaltmayı amaçlar. matrisinin tersinir olmaması durumunda, bu matrisin genelleştirilmiş tersinden yararlanılır. Özellikle sıfıra çok yakın özdeğerlerin olması durumunda genelleştirilmiş ters (generalized inverse) kullanılması anlamlıdır., köşegen elemanları matrisinin özdeğerleri 0, =1,2,, olan tipinde köşegen matris olmak üzere = V spektral ayrışımı ve bu matrisin tersi de ( ) = olarak elde edilir. Eğer ( ) = ise son ( ) özdeğer sıfır olup, = : ve benzer şekilde matrisini de; = 0 ( ) 0 ( ) şeklinde parçalı olarak ifade edebiliriz. ( ( ) ile gösterilir ve ) matrisinin genelleştirilmiş tersi ise ( ) = = (3.8) şeklinde ifade edilir (Burada, -inci özdeğere karşı gelen özvektördür). Bu durumda genelleştirilmiş ters kestiricisi ile gösterilir ve 42

58 3. YANLI KESTİRİCİLER Hasan ERTAŞ = ( ) =, 0 şeklinde tanımlanır ( = için EKK kestiricisi elde edilir). = olmak üzere genelleştirilmiş ters kestiricisi de = şeklinde EKK kestiricisinin fonksiyonu olarak ifade edilebilir. kestiricisi için varyans-kovaryans matrisi; = [( ) ( )] olup, genelleştirilmiş ters kestiricisi için hata kareler ortalaması; ( )= + ( ) ( ) şeklinde ifade edilir. Ayrıca ler kanonik model parametreleri olmak üzere; ( )= + = ( ) + ( ) şeklinde ifade edilir. ( ), nin artan, ( ) ise nin azalan bir fonksiyonudur. Ridge ve genelleştirilmiş ridge kestiricisinde optimal ve değerlerinin seçimi önemli iken, bu kestirici içinde optimal değerinin seçimi söz konusudur. Genelleştirilmiş ters kestirici için, ( ) = olduğundan, rankı belirlemek gerekir ve bu nedenle, matris rankı hakkında bilgi sahibi olmabilmek için ise özdeğerler incelenmelidir. Marquardt (1970) sayısının belirlenebilmesi için, ( ) sayısının eşik değer olarak önermiştir. Yukarıda verilen değerin, seçilen (10 < <10 ) gibi bir sabitten küçük olduğu değeri rank olarak düşünülebilir. Bir matrisin rankı sıfırdan farklı özdeğerlerin sayısı olup, tamsayıdır. Fakat Marquardt yaptığı çalışmada; ( ) = olmak üzere; nin 0 ve 43

59 3. YANLI KESTİRİCİLER Hasan ERTAŞ arasında herhangi bir reel sayı olduğunu düşünmüştür. Bu yüzden de bu kestirici aynı zamanda ondalıklı rank kestiricisi olarak da isimlendirilmiştir. Rankın bir tamsayı olmaması durumunda, nin tam kısmı, ( ) için, (3.8) ile verilen ifade ile verilen toplamın üst sınırı olarak kullanılır (örneğin =4.5 ise 4, toplam için üst sınırdır) ve ondalık kısım yani 0.5 ise bu toplama sonradan eklenir. Rankın bir tamsayı olması durumunda ise, genelleştirilmiş ters kestiricisi Bölüm de tanımlanan temel bileşenler kestiricisine dönüşür. Ayrıca ondalık rank kestiricisi yine kanonik formdaki modelin EKK kestiricisi cinsinden; rank ve (0 1) bir sabit olmak üzere; = [(1 ) + ] = (3.9) Şeklinde de verilebilir. Görüldüğü gibi =0 ve olduğu durumlarda ondalık rank kestiricisi elde edilmektedir. Dolayısıyla temel bileşenler kestiricisinin, ondalıklı rank kestiricisinin özel bir hali olduğu (3.9) ile verilen ifade de daha açık bir şekilde görülmektedir Stein Kestiricisi (1.1) ile verilen = + modeli için nın Stein kestiricisi; = 1 (3.10) şeklinde ifade edilir (( >0) herhangi bir sabit). Bu ifadede verilen yerine değeri kullanılırsa; = 1 44

60 3. YANLI KESTİRİCİLER Hasan ERTAŞ ifadesi elde edilir (Stein, 1960; Vinod ve Ullah, 1981). Verilen ifadede 1 = yazılırsa; = şeklinde olacaktır. Bu kestirici EKK kestiricisi ile karşılaştırıldığında sadece açıklayıcı değişken sayısı ( ) üçten büyük olduğunda < olduğu görülür (Vinod ve Ullah, 1981). O halde kriterine göre 3 için Stein kestiricisi EKK kestiricisine göre daha iyidir. Fakat veride çok güçlü bir iç ilişki problemi olması durumunda Stein kestiricileri, diğer yanlı kestiriciler gibi iyi sonuçlar vermemektedir. Gerçek parametreye yakınlık açısından da EKK kestiricisi kadar iyi olmadığı söylenebilir. Dolayısıyla Stein kestiricisi ancak 3 olduğu durumlarda ve veride güçlü bir iç ilişki problemi yoksa kullanışlıdır. Bu sebeplerle çok yaygın kullanımı olan bir yanlı kestirici değildir Liu ve Genelleştirilmiş Liu Kestiricileri Çoklu iç ilişki olması durumunda EKK nın olumsuz etkileri bilinmektedir. Bu olumsuzlukları önleyebilmek için pek çok kestirici önerilmiştir. Ridge ve Stein kestiriciler bunlardan ikisidir. Fakat her iki kestiricininde olumsuz yanları vardır., k nın karmaşık bir fonksiyonudur. Bu nedenle nın seçimi için karmaşık denklemlerle karşılaşabiliriz. Ridge kestiricisi matrisinin aksine +, 0 matrisine bağlı olduğundan EKK deki zorluklar önlenmiş olur. + nın koşul sayısı nın azalan bir fonksiyonu olduğundan yeteri kadar büyük için + nın koşul sayısını küçük seviyeye düşürülebilir. Ancak uygulamada nın küçük olması önerilir. Bu nedenle + nın koşul sayısını küçültebilecek bir değeri bulunmayabilir. Bu durumda ridge regresyon durağan değildir. nın yanlılık parametresinin farklı seçim yöntemleri vardır ve analizciye bağlıdır. nın nasıl seçileceği ile ilgili bir uzlaşmanın olmamasından dolayı çoklu iç ilişki olması durumunda yeni yöntemler araştırılmıştır. Stein kestiricisinin avantajı nin bir lineer fonksiyon olmasıdır. Fakat nin her elemanının büzülmesi aynı değildir. Bu da uygulamalarda iyi sonuç vermez. İki kestiricinin kombinasyonunun bu iki kestiricinin avantajlarını birleştireceği düşüncesi Liu (1993) yeni bir kestirici önermeye sevk etmiştir. Çoklu 45

61 3. YANLI KESTİRİCİLER Hasan ERTAŞ iç ilişki problemini ortadan kaldırmak için Liu (1993), Stein (1956) kestirici ile ridge kestiricisini birleştirmiştir ve = ( + ) +, 0< <1 (3.11) kestiricisini önermiştir. Bu kestirici Akdeniz ve Kaçıranlar (1995) ve Gruber (1998) tarafından Liu kestiricisi olarak adlandırılmış. nın üzerindeki avantajı nin bir lineer fonksiyonu olmasıdır. Dolayısıyla nin seçimi nın seçiminden daha kolaydır. Genelleştirilmiş Liu kestiricisi de genelleştirilmiş ridge kestiricisi gibi; = ( + ) + olarak tanımlanır. Burada =,,,, 0< <1 şeklindedir. Eğer = = = = ise Liu kestiricisi elde edilir Liu Kestiricisinin Bazı Özellikleri 1. =1 iken = dır. Ayrıca Liu kestirici EKK nın bir lineer dönüşümü olarak ta ifade edilebilmektedir ( = ( + ) ( + ) ), 2. < dır. 3. = ( + ) ( + ) olup yanlı bir kestiricidir. 4. < olacak şekilde bir d sabiti vardır. 5. kestiricisinin varyans-kovaryans matrisi; = ( + ) ( + )( ) ( + )( + ) ile verilir. 6. (3.7) modeli için, 46

62 3. YANLI KESTİRİCİLER Hasan ERTAŞ, = ( ) ( ) + ( 1) ( ) dır ve Liu (1993), yi minumum yapan yanlılık parametresinin tahminini; =1 ( ) ( ) olarak vermiştir Modified Liu Kestiricisi Swindel (1976) tanımladığı modified ridge kestiricisine benzer bir düşünce ile Yalian Li ve Hu Yang (2010) Liu kestiricisi ile ön (prior) bilgiyi birleştirerek Modified Liu kestiricisini tanımlamışlardır. Modified Liu kestiricisi, = ( + ) ( + ) = ( )( + ) olmak üz ere; (, ) = + ( ) = ( + ) ( + ) + (1 ) = (1 ) 0 (3.12) şeklinde ifade edilmiştir. Burada, boyutlu stohastik olmayan bir vektör olup üzerindeki ön bilgiyi temsil edecek şekilde seçilmelidir. (, ) nın bazı özellikleri şu şekildedir: 1) (1, ) = 2) (,0)= 3) = ( + ) ( + ) olmak üzere, Modified Liu kestiricisinin Yanlılık vektörü, varyans-kovaryans matrisi ve matris kareler ortalaması; 47

63 3. YANLI KESTİRİCİLER Hasan ERTAŞ ( (, )) = +( ) =( )( ) ( (, )) = ( ) ( (, )) = ( ) + ( )( )( ) ( ) şeklinde ifade edilir Yanlı Kestiricilerin Bir Sınıfı = + modelinin kanonik formu; = ve = olmak üzere, = + ile verilmişti. Bu durumda = ve = olmak üzere parametresinin EKK kestiricisi; = ( ) = ş eklinde ifade edilir. Böylece = olarak elde edilir. ( =1,2,, ); ilk elemanı ile aynı olan vektör yani = ( 0 0 0) olsun. Burada ler lineer bağımsız vektördür. Dolayısıyla ; boyutlu uzay için baz olarak düşünülebilir. parametresinin kestiricileri de boyutlu uzayda vektörler olduğundan, lerin lineer kombinasyonu olarak yazılabilirler. Bir başka ifade ile nın herhangi bir kestiricisi = olarak yazabiliriz. Burada ler önceden hesaplanmış sabitlerdir ve bu sabitlerin farklı seçimleri ile parametresinin farklı kestiricileri elde edilebilir (Hocking ve ark., 1976). İşlem kolaylığı açısından =, olarak tanımlanırsa parametresinin bir kestiricisi; (,,, ) ş eklinde ifade edilir. Tanım 3.1. =, =1,2,, ve = (,,, ) olmak üzere; = şeklinde yazılan kestiriciye parametresinin genel yanlı kestiricisi 48

64 3. YANLI KESTİRİCİLER Hasan ERTAŞ denir. = şeklinde yazılabilen kestiricilerin oluşturduğu sınıfa ise genel yanlı sınıf adı verilir. Genel yanlı sınıf; içinde ridge, genelleştirilmiş ridge, modified ridge, temel bileşenler, ondalık rank kestiricisi, Stein, Liu, genelleştirilmiş Liu ve modified Liu gibi pek çok kestiriciyi içine alan zengin bir sınıftır. = olması durumunda EKK kestiricisi elde edilir. kestiricisinin özellikleri şu şekildedir: 1. kestiricisi; ( ) = = ( ) ( ) olduğundan yanlı bir kestiricidir ( ). Bu nedenle ler yanlılık parametresi ve matrisi de yanlılık matrisi olarak adlandırılır. Genel yanlı sınıf kestiricisi için yanlılık ( ) = ( ) ile verilir. 2. Genel yanlı kestirici için varyans-kovaryans matrisi; ( ) = şeklinde ifade edilir. 3. Genel yanlı sınıf kestiricisi için nin matris formu; = + ( ) ( ) (3.13) şeklinde ifade edilir. (3.13) ifadesinden; ( ) ( ) = ( ) ( ) ( ) ifadesi elde edilir. Eğer ( ) ( ) matrisi yarı tanımlı (psd) ise, kestiricisi kriterine göre EKK kestiricisinden daha iyi bir kestiricidir. 49

65 3. YANLI KESTİRİCİLER Hasan ERTAŞ 4. Hata kareler ortalaması; ( ) = [( ) ( )] = + 1 (3.14) şeklinde elde edilir. =1,2,, için 0 iken 0 ; ve eğer 1 ise = ile 0 olacaktır. 5. yanlılık parametrelerinin optimal değeri, ( ) yı minimum yapacak şekilde elde edilir. Bunun için ( ) nın ye göre ( =1,2,, ) türevi alınıp sıfıra eşitlenirse; ( ) =2 2 1 =0 + = = = (3.15) şeklinde elde edilir ( =, =1,2,, ). Elde edilen optimal değeri, (3.14) ile verilen ( ) formülünde yerine konursa; ( ) = + buradan da ( ) = = (3.16) elde edilir. (3.16) ile verilen ifade de yerine 1 1 yazılırsa; ( ) = 1 = ( ) 1 50

66 3. YANLI KESTİRİCİLER Hasan ERTAŞ ( ) ( ) = 1 (3.17) ifadesinden ve kestiricilerinin değerleri arasındaki ilişki görülür. Dikkat edilirse (3.17) ile verilen kestiricilerin leri arasındaki fark 0< <1 olmak üzere her zaman pozitiftir. Ayrıca bu farkın ile ters orantılı olduğu görülür. Başka bir ifadeyle matrisinin özdeğerleri küçüldükçe (kötü koşulluluk arttıkça); kestiricisinin değeri ile kestiricisinin arasındaki fark artacak, böylece kriterine göre kestiricisi kestiricisinden daha iyi bir kestirici olacaktır. Kanonik model için parametresinin genel yanlı kestiricisi olmak üzere (1.1) modeli için parametresinin genel yanlı kestiricisi ; = = (3.18) şeklinde elde edilir (Lee ve Birch, 1988) Genel Yanlı Sınıf İçinde Yer Alan Kestiriciler Ridge, genelleştirilmiş ridge, modified ridge, ondalık rank, temel bileşenler, Stein, Liu, genelleştirilmiş Liu ve modified Liu kestiricileri; matrisinin özel seçimleri ile bu yanlı sınıf içerisinde yer alan kestiricilerdir. 1. Ridge Kestiricisi: Kanonik modeldeki parametresinin ridge kestiricisi ( + ) şeklinde olup; = ( + ) = ( + ) olarak elde edilir. O halde =( + ) olarak alınırsa ridge kestiricisinin, genel yanlı sınıf içerisinde yer aldığı görülür ( >0). Böylece (1.1) modeli için ridge kestiricisi; = ( + ) = 51

67 3. YANLI KESTİRİCİLER Hasan ERTAŞ şeklinde ifade edilir. Ridge kestiricisi için matrisini ( + ) olarak da ifade edebiliriz. Bu durumda ; = 1 + = 1 (3.19) şeklinde ifade edilir. Dolayısıyla ridge kestiricisi, bu genel kestiricinin =1,2,, 1 için; 1 = 1 (3.20) kısıtlamasını sağlayan özel bir halidir ( 1 değeri tüm ler için eşit). (3.20) ile verilen ifadeyi kullanarak, parametresinin elde edilmesi için başka bir yöntem önerilebilir. (3.19) ile ifade edilen 1 lerin ortalaması alınırsa; = şeklinde verilir (Hocking ve ark., 1976). Bu durumda eğer yanlılık parametresinin optimal değeri biliniyorsa bundan yararlanarak değeri elde edilebilir. 2. Genelleştirilmiş Ridge Kestiricisi: Kanonik modeldeki parametresinin genelleştirilmiş ridge kestiricisi ( + ) şeklinde olup; = ( + ) = ( + ) olarak elde edilir. O halde = ( + ) olarak alınırsa genelleştirilmiş ridge kestiricisinin, genel yanlı sınıf içerisinde yer aldığı görülür ( = ( ), 0, =1,2,, ). Böylece (1.1) modeli için genelleştirilmiş ridge kestiricisi; = ( + ) = 52

68 3. YANLI KESTİRİCİLER Hasan ERTAŞ şeklinde ifade edilir. Genelleştirilmiş ridge kestiricisi için matrisini ( + ) olarak da ifade edebiliriz. Bu durumda ; = 1 + (3.21) şeklinde ifade edilir. (3.21) ifadesinde, yerine = yazılırsa; nin (3.15) ile verilen optimal formu elde edilir. Dolayısıyla, şeklinde yazılabilen genel yanlı sınıf kestiriciler için; =, =1,2,, olmak üzere, ler hakkında herhangi bir kısıt olmaksızın genelleştirilmiş ridge kestiricisi için elde edilebilmektedir (Hocking ve ark., 1976). 3. Modified Ridge Kestiricisi (, ) = ( + ) ( + ), 0 (3.6) ile verilen modified ridge kestiricisinde, ön bilgi olduğundan dolayı yerine = alırsak; (, ) = ( + ) [ + (( + ) )] ifadesini elde ederiz. Kanonik modeldeki parametresinin modified ridge kestiricisi; (, ) = ( + ) [ + (( + ) )] şeklinde olup, (, ) = ( + ) [ + ( + ) ] olarak elde edilir. O halde = ( + ) [ + ( + ) ] olarak alınırsa modified ridge kestiricisi genel yanlı sınıf içerisinde yer aldığı görülür ( >0). Böylece (1.1) modeli için modified ridge kestiricisi; 53

69 3. YANLI KESTİRİCİLER Hasan ERTAŞ (, ) = ( + ) [ + ( + ) ] (, ) şeklinde ifade edilir. Modified ridge kestiricisi için, = ( + ) [ + ( + ) ] olduğundan yanlılık parametresi; = =1,2,, şeklinde elde edilir. 4. Ondalık Rank ve Temel Bileşenler Kestiricisi: Bölüm de verilen ondalık rank kestiricisi için kanonik form; = (1 ) şeklinde ifade edilir. Dolayısıyla bu kestirici genel yanlı kestiriciler sınıfının; için + =1 0, 0 ve için =0 kısıtlamalarını sağlayan bir eleman olacaktır. Böylece yanlılık parametresi ler; 1 ; = 1+ ; = +1 0 ; > +1 şeklinde elde edilir. Seçilmiş değeri için, (3.16) ile verilen ifade de lerin yerine konulmasıyla; ( ) = ( ) ( 1 ) + (1+ ) 54

70 3. YANLI KESTİRİCİLER Hasan ERTAŞ olarak elde edilir. Yukarıdaki ifade de görüldüğü gibi, bu kestiricinin EKK ya göre daha küçük değerine sahip olması değerlerine bağlıdır. parametresi için ondalık rank kestiricisi = (1,1,,1,,0,,0) olmak üzere; = = şeklinde ifade edilir. Ondalık rank kestiricisinin özel bir hali olan temel bileşenler kestiricisi; =1 ve için =0 kısıtlamaları ile bu genel sınıfın içinde yer alır. parametresi için temel bileşenler kestiricisi ise = (1,1,,1,0,,0) olmak üzere; = = şeklinde ifade edilir (Hocking ve ark.,1976). 6. Stein Kestiricisi: (3.10) ile verilen Stein kestiricisi, bu sınıfın =0, =1,2,, 1 kısaltmalarını sağlayan bir elemanıdır. Dolayısıyla =, =1,2,, olacaktır. Bu durumda ( ) değerini minumum yapan = ; = + şeklinde hesaplanır. Bu ifade bilinmeyen parametreleri içerdiğinden uygulamada kullanılmaz. Bu durumda optimal değerlerinin elde edilmesine ilişkin yöntemler Bölüm de verilecektir. Böylece (1.1) modeli için Stein kestiricisi; =,,, ve = = = = olmak üzere; = = ş eklinde ifade edilir (Hocking ve ark., 1976). 55

71 3. YANLI KESTİRİCİLER Hasan ERTAŞ 6. Liu ve Genelleştirilmiş Liu Kestiricisi: Kanonik modeldeki parametresinin Liu kestiricisi ( + ) ( + ) ş eklinde olup; = ( + ) ( + ) = ( + ) ( + ) olarak elde edilir. O halde = ( + ) ( + ) olarak alınırsa Liu kestiricisinin, genel yanlı sınıf içerisinde yer aldığı görülür (0 < <1). Böylece (1.1) modeli için Liu kestiricisi; = ( + ) ( + ) = ş eklinde ifade edilir. Liu kestiricisi için yanlılık matrisi, = ( + ) ( + ) olduğundan yanlılık parametresi; =, =1,2,, (3.22) şeklinde elde edilir. (3.22) ifadesini kullanarak; = 1 + (3.23) ifadesi elde edilir. parametresinin elde edilmesine ilişkin, parametresine benzer şekilde başka bir çözüm yolu önerilebilir. (3.23) ile verilen ortalaması alınırsa; 1 + ifadesinin = 1 + ile verilen ifade kullanılarak, yanlılık parametresinin optimal değeri biliniyorsa parametresinin optimal değerini elde edilebiliriz. Genelleştirilmiş Liu kestiricisi için yanlılık matrisi ve yanlılık parametresi şu şekildedir: 56

72 3. YANLI KESTİRİCİLER Hasan ERTAŞ Kanonik modeldeki ( + ) ( + ) ş eklinde olup; parametresinin genelleştirilmiş Liu kestiricisi = ( + ) ( + ) = ( + ) ( + ) olarak elde edilir. O halde = ( + ) ( + ) olarak alınırsa genelleştirilmiş Liu kestiricisi, genel yanlı sınıf içerisinde yer aldığı görülür ( = ( ),0< <1, =1,2,, ). Böylece (1.1) modeli için genelleştirilmiş Liu kestiricisi; = ( + ) ( + ) = şeklinde ifade edilir. Genelleştirilmiş Liu kestiricisi için = ( + ) ( + ) olduğundan yanlılık parametresi; yanlılık matrisi, =, =1,2,, şeklinde elde edilir. 8. Modified Liu Kestiricisi: (, ) = ( + ) ( + ) + (1 ) 0< <1 (3.12) ile verilen Modified Liu kestiricisinde, ön bilgi olduğundan yerine = alırsak; (, ) = ( + ) ( + ) + (1 ) ( + ) ( + ) ifadesini elde ederiz. Kanonik modeldeki parametresinin Modified Liu kestiricisi; (, ) = ( + ) ( + ) + ( 1 )[( + ) ( + ) ] 57

73 3. YANLI KESTİRİCİLER Hasan ERTAŞ şeklinde olup, gerekli işlemler yapılırsa; (, ) = ( + ) ( + )[ + (1 )( + ) ] olarak elde edilir. O halde = ( + ) ( + )[ + (1 )( + ) ] olarak alınırsa Modified Liu kestiricisinin genel yanlı sınıf içerisinde yer aldığı görülür (0 < <1). Böylece (1.1) modeli için Modified Liu kestiricisi; (, ) = ( + ) ( + )[ + (1 )( + ) ] (, ) ş eklinde ifade edilir. Modified Liu kestiricisi için, = ( + ) ( + )[ + (1 )( + ) ] olduğundan yanlılık parametresi; = ( +2) =1,2,, şeklinde elde edilir. Genel yanlı sınıf içerisinde yer alan kestiriciler ve yanlılık parametreleri aşağıdaki çizelgede verilmiştir. 58

74 3. YANLI KESTİRİCİLER Hasan ERTAŞ Çizelge 3.1. Genel yanlı sınıf içinde yer alan kestiriciler ve yanlılık parametereleri KESTİRİCİ EKK = 1, = 1,2,, RİDGE GENELLEŞTİRİLMİŞ RİDGE MODIFIED RİDGE TEMEL BİLEŞENLER { ( ) =, } ONDALIK RANK { ( ) [, + 1]} =, = 1,2,,, > 0 =, = 1,2,,, > 0 =, = 1,2,,, > 0 = 1, = 1,2,, = 0, (diğer durumlarda) = 1, = 1,2,, ; = = 0, (diğer durumlarda) STEIN =, = 1,2,, LIU GENELLEŞTİRİLMİŞ LIU MODIFIED LIU =, = 1,2,,, 0 < < 1 =, = 1,2,,, 0 < < 1 = + 2, = 1,2,, 0 < < 1 59

75 3. YANLI KESTİRİCİLER Hasan ERTAŞ Yanlılık Parametresi nin Hesaplanması (3.15) ile verilen optimal değerini; = (3.24) olarak da yazabiliriz. (3.24) ifadesinde ve parametrelerinin bilinmemesinden dolayı (3.24) ifadesi uygulamalarda kullanılmaz. Bu nedenden dolayı optimal değerinin hesaplanması için önerilen çeşitli yaklaşımlar kullanılmaktadır. Bu yaklaşımlardan bazıları şu şekildedir: i) Birinci yaklaşım; Hoerl ve Kennard tarafından (1976) optimal değeri için verilen iteratif yöntemi esas alır. (3.24) ile verilen ifade de; iterasyon sayısını göstermek üzere, yerine EKK kestiricisi ; yerine, ( ) (-inci iterasyonda elde edilen genelleştirilmiş ridge kestiricisi) yazılırsa;, [ +1]=, ( ) (3.25) ifadesi elde edilir ( =0,1, ). =0 için, (0) = yani genelleştirilmiş ridge kestiricisi yerine, nın EKK kestiricisi kullanılacaktır. İteratif işleme; genelleştirilmiş ridge kestiricisinin uzunluğu sabitleninceye kadar devam edilir (Hocking ve ark.,1976). ii) İkinci yaklaşım; =0 için genelleştirilmiş ridge kestiricisi yerine nın EKK kestiricisi kullanılmasının çoklu iç ilişki problemi durumunda sağlıksız olduğu düşünülürek önerilmiştir. Bu yaklaşım da başlangıç değer olarak temel bileşenler kestiricisini ve her iterasyon için yerine; ( ) = ( ) ( ) 60

76 3. YANLI KESTİRİCİLER Hasan ERTAŞ ifadesini kullanır ve -inci iterasyonda elde edilen yanlılık parametresi, ( +1) ile gösterilir. Araştırmacılar bu değerin iteratif olarak hesaplanabileceği gibi tek iterasyon sonucunda hesaplanan değerin de alınabileceğini savunmaktadırlar., ( +1) ifadesinin, iterasyon sayısı sonsuza giderken limiti alınarak elde edilen yanlılık parametresi, ( +1) olmak üzere ilk iterasyonda elde edilen değerden önemli derecede farklı değildir (Hocking ve ark.,1976). iii) Üçüncü yaklaşım;, ( +1) ile gösterilen yanlılık parametreleri, (3.25) de, ( ) yerine ( ) ( ) yazılmasıyla elde edilir. Burada ( ) t-inci iterasyonda elde edilen ridge kestiricisi ve ( 0 ) ise EKK kestiricisidir. Bu iteratif işleme ( ) ( ) değeri sabitleninceye kadar devam edilir (Hocking ve ark., 1976). iv) Dördüncü yaklaşım; ridge kestiricisi kullanılarak verilen yanlılık parametreleri için başlangıç değer olarak EKK yerine temel bileşenler kestiricisi kullanır. Benzer şekilde yerine her bir itersayonda elde edilen ( ) alınırsa, ( ) ile gösterilen yanlılık parametreleri hesaplanabilir. Ayrıca işlem kolaylığı açısından, ( ) de olduğu gibi ilk iterasyon sonucu kullanılabilir., ( +1) ifadesinin, iterasyon sayısı sonsuza giderken limiti alınırak elde edilen yanlılık parametresi ( +1) olmak üzere bu değer ilk iterasyonda elde edilen değerden önemli derecede farklı değildir (Hocking ve ark.). Bu yanlılık parametrelerinin performansını karşılaştırmak için yapılmış bir simülasyon çalışmasında, farklı parametreleri ve değerleri için tekrarlı denemeler yapılmıştır (Lee, 1986). Bu çalışmanın sonucunda, dört yöntemden herhangi biriyle elde edilen yanlılık matrisleri kullanılarak hesaplanan kestiriciler EKK kestiricisine göre daha iyiyken; birisinin diğerine göre üstünlüğü parametresinin uzaydaki konumuna, derecesine göre değişmektedir (Lee, 1986). değerine ve çoklu iç ilişki probleminin 61

77 3. YANLI KESTİRİCİLER Hasan ERTAŞ 62

78 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 4. GENEL YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Veride, çoklu iç ilişki problemi ve sapan değerlerin bir arada bulunması çok sık karşılaşılabilen bir durumdur. Bu gibi durumlarda ilk önce çoklu iç ilişki problemi kontrol altına alınmalıdır. Bu nedenle öncelikle parametre kestirimi için; EKK kestiricisi yerine çoklu iç ilişki probleminin etkilerine dayanaklı alternatif yanlı kestiricilerin kullanılması gerekmektedir. Ancak EKK analizinde sapan değerlerin belirlenmesi için çok sayıda tanılama ölçüleri olmasına rağmen yanlı kestirim yöntemleri için pek fazla çalışma yapılmamıştır. Walker ve Brich (1988) ve Chalton ve Troskie (1992) EKK kestiricisi için verilen bir gözlem tanılama ölçülerinden yola çıkarak, yanlı kestiriciler için tanılama ölçüleri önermişlerdir. Walker (1980) Bölüm 3 de verilen genel yanlı sınıf kestiricileri için bazı tanılama ölçülerini, yanlılık ve yanlılık matrisinin fonksiyonları olarak tanımlamıştır Genel Yanlı Kestiriciler İçin Tanılama Ölçüleri Genel yanlı sınıf kestiricileri; = ş eklinde yazılabilen kestiricilerdir ( ). Yanlılık matrisi nin farklı seçimleri ile ridge, genelleştirilmiş ridge modified ridge, temel bileşenler, ondalık rank, Stein, Liu, genelleştirilmiş Liu ve modified Liu kestiricileri elde edilebilmektedir. EKK kestiricisinde olduğu gibi, bu kestiriciler içinde tanılama ölçüleri verilebilir. Yanlı sınıf kestiricileri için tanılama ölçüleri genel olarak, yanlılık matrisi ve yanlılık parametrelerinin bir fonksiyonu olarak yazılabilmektedir. Böylece bu sınıf içerisinde yer alan herhangi bir kestirici için ve lerin özel seçimleriyle tanılama ölçüleri verilebilir Genel Yanlı Sınıf Kestiriciler İçin Rezidü ve Leverage Ölçüleri Bölüm 2 de EKK için verilen etki ölçüleri, leverage ve rezidülerin bir fonksiyonu olarak yazılabilmekteydi, Genel yanlı kestiriciler için de rezidü ve leverage değerleri, etki ölçülerinin oluşturulmasında önemli rol oynamaktadır. Genel yanlı sınıf kestiriciler için uydurulmuş değer vektörü, = tekil değer 63

79 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ ayrışımı (Mandel, 1982) (burada ; matrisinin özdeğerlerinin pozitif kareköklerinden oluşan tipinde köşegen matris, ; kolonları matrisinin özdeğerlerine karşılık gelen özvektörlerden oluşan tipinde ortogonal matris ve ; kolonları matrisinin sıfırdan farklı özdeğerine karşılık gelen özvektörler olan tipinde ortogonal matristir) ve buradan = ( ) = olmak üzere; = = = = ( ) = (4.1) ifadesi elde edilir. (4.1) ifadesi kullanılarak i-inci uydurulmuş değer için; =1,2,, = = h şeklinde ifade edilir. matrisi tam olarak şapka matris değildir; fakat şapka matrisine benzer özelliklere sahiptir. matrisi simetrik bir matristir; fakat ( ) = olup = olması durumu dışında idempotent bir matris değildir. matrisi ile şapka matrisi arasında; = ( ) = [ ( )] = ( ) şeklinde bir ilişki vardır. Bu durumda matrisinin elemanları, h = ve h = olmak üzere; h = h (1 ) (4.2) h = h (1 ) = (4.3) şeklinde elde edilir. (4.3) ifadesinde (1 ) 0 olduğundan; =1,2,, için h h olacaktır. Ayrıca her için h değerindeki azalma aynı değildir ve 64

80 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ yanlılık parametrelerine bağlı olarak değişebilir. matrisinin izi (trace) olarak adlandırılır ve bu değer ye yaklaştıkça matrisi şapka matrisi gibi davranır. h değerleri h ile aynı rolü oynamaktadır ve bu nedenden dolayı h ( =1,2,, ) genel yanlı kestiriciler için leverage değeri olarak adlandırılır., yanıt vektörünün de uydurulmuş değerlere yakın olması, başka bir ifade ile rezidünün küçük olması beklenir. Genel yanlı kestiriciler için alışılmış rezidü vektörü; = = = ( ) (4.4) şeklinde ifade edilir. (4.4) de ( ) ifadesinin yerine + yazarsak = ( ) + ( ) = + ( ) (4.5) ifadesi elde edilir. (4.5) ifadesinde ( ) matrisi gerek matrisi gerekse üzerinde yanlılık parametrelerinin etkisini göstermektedir. Özel olarak inci alışılmış rezidü; = + (1 ) (4.6) şeklinde elde edilir. ve için; h h gibi benzer bir karşılaştırma söz konusu değildir. Çünkü (4.6) ifadesinde toplamdaki ikinci terim matrisinin elemanlarına bağlı olarak pozitif ya da negatif olabilir. Dolayısıyla bu terime bağlı olarak, EKK kestiricisi rezidüsünden daha büyük ya da daha küçük olabilir. Genel yanlı sınıf için elde edilen ve h değerleri, bu sınıf için özelleştirilebiliriz. Bu sınıfta yer alan yanlı kestiriciler için, Bölüm 3 de verilen yanlılık parametreleri yerine yazılırsa özel olarak bu kestiriciler için rezidü ve leverage değerlerini tanımlayabiliriz. Örneğin Liu kestirici için leverage değeri; 65

81 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ h = (4.7) şeklinde elde edilir. (4.7) ifadesini kullanarak önemli sonuçlar elde edilebiliriz. İlk olarak daha önce de belirtildiği gibi Liu kestiricisi için leverage değerleri EKK kestiricisi leverage değerinden daha küçüktür. İkinci olarak değeri arttıkça leverage değeri artmaktadır ve bu artmanın oranı inci satırın özvektörlerle olan konumuna göre değişir. Liu kestiricisi için inci alışılmış rezidü ise; = + (1 ) (4.8) şeklinde elde edilir. (4.8) ifadesinin toplamdaki ikinci terim pozitif ya da negatif olabileceğinden, Liu kestiricisi için rezidü değerinin genel olarak EKK kestiricisi rezidüsünden daha büyük veya daha küçük olduğu söylenemez Genel Yanlı Sınıf Kestiricileri İçin Etki Ölçüleri Bölüm de tek gözlem için etki ölçüleri verilmişti. Walker (1990) bu ölçülerden, Cook Uzaklığını ( ) ve Welsch- Kuh ( İ ) Uzaklığı ölçülerini genel yanlı sınıf içerisinde yer alan kestiriciler için tanımlamıştır. Genel yanlı sınıf için Welsch- Kuh Uzaklığı; İ = = ( ) ş eklinde tanımlanır. Herhangi yanlılık matrisi için; ( ) = ( ) = ( ) = ( ) 66

82 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ şeklinde ve -inci gözlem için ( ) = ( ) = h olmak üzere; = ( ) = ile verilir. Bu durumda genel yanlı sınıf kestiricileri için Welsch- Kuh Uzaklığı; İ = = ( ) ( ) =1,2,, (4.9) şeklinde ifade edilir. Genel yanlı sınıf kestiriciler için Cook Uzaklığı; = ( ) ( ) =1,2,, (4.10) şeklinde tanımlanır. olup, uydurulmuş değerlerin ve yanıt değişkenlerinin fonksiyonu matrisinin özdeğerlerine bağlı değildir. Dolayısıyla çoklu iç ilişki probleminden etkilenmez (Walker ve Birch, 1988). Bu nedenden dolayı parametresinin kestiricisi olarak EKK yönteminden elde edilen kullanılmıştır. (4.9) ve (4.10) ölçüleri elde edilirken, her bir gözlem çıkartıldıktan sonra uydurulmuş değerler ve parametre kestirimleri tekrar hesaplanmalıdır. Genel yanlı sınıfta yer alan kestiriciler ölçeklemeye bağımlı olduğundan; her bir gözlem çıkartıldıktan sonra açıklayıcı değişkenler matrisinin, ( ) ( ) korelasyon formunda olacak şekilde yeniden merkezleştirilip, ölçeklendirilmesi gerekmektedir. EKK kestiricisi için verilen tanılama ölçülerini, tam model için elde edilen leverage ve rezidünün bir fonksiyonu olarak yazılabiliyorduk. Ancak genel yanlı sınıf kestiricileri için tanılama ölçüleri, bu şekilde tam olarak elde edilemezler, sadece yaklaşık formüller verilebilir. Dolayısıyla eğer yanlı kestiriciler için tanılama ölçüleri tam olarak elde edilmek isteniyorsa, ilgili gözlem çıkartıldıktan sonra tüm kestiriciler yeniden hesaplanmalıdır. Diğer taraftan tanılama ölçülerinin leverage ve rezidü cinsinden yazılması uygulamada oldukça kullanışlıdır. Bu nedenden dolayı ( ) 67

83 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ değerinin, ve tam model rezidü ve leverage değerleri kullanılarak elde edilmesi konusunda çeşitli yaklaşımlar önerilmiştir. ( ) için, Özel olarak ridge kestiricisi kullanılarak önerilen yöntemler verilebilir. = ( ) ( ) + ( ) ( ) olmak üzere ( ) değerini tam olarak hesaplamak ( ) birim kolon uzunlukta olacak şekilde yeniden ölçeklendirilmelidir. Aksi takdirde ( ) ( ) korelasyon matrisi formunda olmayacaktır. -inci gözlem çıkartıldıktan sonra matrisinin merkezileştirilmiş formu ( ), merkezileştirilip ölçeklendirilmiş formu ise ( ) ile gösterilmek üzere; ( ) = ( ) ( ) = ( ) 1 =1,2,,, =1,2,, şeklinde ifade edilir. Böylece, ( ) ( ) = ( ) ( ) = olarak elde edilir. Eğer korelasyon matrisinin köşegen elemanlarına eklenirse; sabiti = + olmak üzere; = + = ( ) ( ) ifadesi elde edilir. Böylece -inci gözlem çıkartıldıktan sonra elde edilen gerçek ridge kestiricisi; ( ) = ( ) + şeklinde ifade edilir. Yukarıda görüldüğü gibi ridge kestiricisi oldukça karmaşık işlemler sonucu elde edilmektedir. Bu işlem karmaşıklığını önlemek amacıyla ( ) için çeşitli yaklaşımlar önerilmiştir. 68

84 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ i) Birinci yaklaşım: Walker ve Birch (1988) tarafından; ( ) (4.11) şeklinde önerilmiştir. (4.11) ile verilen bu yaklaşık değer yüksek leverage noktaları iyi sonuç vermemektedir. ii) İkinci yaklaşım: Billor (1992) tarafından, (1 ) varsayımını kullanarak önerilmiştir. Bu varsayım kullanarak elde edilen yaklaşık ridge kestiricisi = ( + ) olmak üzere; ( ) ( ) + + (4.12) şeklinde ifade edilir. (4.12) ifadesi n (gözlem sayısı) arttıkça daha iyi sonuç veren bir yaklaşımdır. iii) Üçüncü yakalaşım: Billor (1992) tarafından, iteratif bir yöntem kullanılarak önerilmiştir. Başlangıç değeri tam model için ridge kestiricisi, iterasyon sayısı ve = matrisi olmak üzere iteratif kestirici; ( ) = 1 ( ) + ( ) olarak hesaplanır. İşleme bu şekilde iteratif olarak devam edilir. İteresyon sayısı arttıkça gerçek parametre kestirimi ( ) Böylece ridge kestiricisi için değerine daha çok yaklaşır. -inci gözlem çıkartıldıktan sonra, parametresinin kestirimi için üç farklı yaklaşık değer önerilmiştir. Bu çalışmada işlem kolaylığı açısından, Walker ve Birch tarafından (4.11) ile verilen yaklaşım kullanılacaktır. Ridge kestiricisi için verilen bu yaklaşımı, yanlı sınıf için 69

85 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ genelleştirebiliriz. Genel yanlı sınıf kestiricileri; =, = 0 ve = ( ) olmak üzere; = ( ) = ( + ) = ifadesi elde edilir. Dikkat edilirse matrisi matrisinin tekil değer ayrışımına dayalıdır. Eğer matrisinin bir satırı çıkarılırsa, tekil değer ayrışımı ve dolayısıyla matrisi değişecektir. Ancak matrisinin sabit kaldığı varsayımıyla; ( ) ( + ) ( ) ifadesi elde edilir. Burada Sherman-Morrison-Woodbury teoremi (Belsley ve ark., 1980) kullanılarak = + = olmak üzere; ( ) = + ( ) ile verilir. Burada = alınıp, bir dizi işlemlerin yapılmasıyla; ( ) = (4.13) ifadesi elde edilir. (4.13) ifadesi kullanılarak elde edilen ve ölçüleri leverage ve rezidünün fonksiyonu olarak yeniden yaklaşık olarak tanımlanabilir. Bu ölçülerden ölçüsü; İ ( ) =1,2,, (4.14) şeklinde ifade edilir. Benzer şekilde ölçüsü; 70

86 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ =1,2,, (4.15) şeklinde ifade edilir. Chalton ve Troskie (1992) ridge ve ondalık temel bileşenler kestiricisi için verilen ve ölçüleri için eşik değer konusunda simülasyon çalışması yapmışlardır. Ancak simulasyon çalışması sonucunda önerilen eşik değerlerin, ridge ve ondalık rank kestiricileri için çok fazla kullanışlı olmadıkları sonucuna ulaşılmıştır. Dolayısıyla EKK kestiricisi için tanılama ölçülerinde olduğu gibi, elde edilen sonuçların karşılaştırılıp farklı davranan gözlemlerin belirlenmesi daha sağlıklıdır Genel Yanlı Sınıf İçin Tanılama Ölçülerine Farklı Bir Yaklaşım kullanılmıştı. Bölüm de verilen etki ölçülerinde yerine ile gösterilen; parametresinin EKK kestiricisi = = (4.16) şeklinde ifade edilir. (4.16) ifadesi kullanılarak ve ölçülerini yeniden elde edebiliriz. ( ) için de (4.13) ifadesi ile verilen yaklaşık değer kullanılacaktır. ( ) = ( ) ( ) ( ) ( ) ( ) ( ) şeklinde olup, gerekli işlemler yapılırsa; ( ) = 2 + ifadesi elde edilir. Burada; 71

87 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ = + = +2 2 şeklindedir. Benzer şekilde; ( ) gerekli işlemler yapılırsa; = ( ) ( ) ( ) ( ) ( ) ( ) ( ) = 2 + ifadesi elde edilir. Burada; = + = +2 2 şeklindedir. Böylece yanlılık parametrelerinin bire yakın ve h h (1 h ) olduğu varsayımıyla; ( ) ifadesi elde edilir. Böylece ( ) ; ( ) = ( ) = ( ) ( ) şeklinde ifade edilir. Bu durumda ve ölçüleri; İ ( ) =1,2,, 72

88 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ =1,2,, olarak tanımlanır. 73

89 4. YANLI KESTİRİCİLER İÇİN TANILAMA ÖLÇÜLERİ Hasan ERTAŞ 74

90 5. UYGULAMA Hasan ERTAŞ 5. UYGULAMA Bu bölümde iki farklı uygulama yapılacaktır. İlk uygulama 2. Bölümde EKK kestiricisi için verilen uzaklık ölçüleri yardımıyla tek sapan gözlemlerin belirlenmesi, ikinci uygulamada ise 4. Bölümde verilen uzaklık ölçüleri yardımıyla tek sapan gözlemlerin belirlenmesidir Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrrufu Verisi Arlie Sterling (1977), Franco Modigliane (1975) tarafından geliştirilmiş yaşam döngü tasarrufu hipotezlerini kullanarak gelişmiş 50 ülke üzerinde topladığı verisinde, yılları arasında bireysel tasarruf oranına ait aşağıdaki değişkenleri kullanarak inceleme yapmıştır (Çizelge 5.1.). : yılları arasında 15 yaş altı nüfusun ortalama yüzdesi, : yılları arasında 75 yaş üstü nüfusun ortalama yüzdesi, : yılları arasında kişi başına düşen gerçek harcanabilir gelir düzeyinin dolar bazında ortalaması, : yılları arasında kişi başına düşen gerçek harcanabilir gelir düzeyinin büyüme oranının ortalama yüzdesi, : Bireysel tasarruf oranı. Veri, Matlap 7.0 ve SPSS 15.0 programları yardımıyla incelenmiştir. 75

91 5. UYGULAMA Hasan ERTAŞ Çizelge 5.1. Gelişmiş Ülkelerdeki Yaşam Döngü Tasarrufu No Ülke 1 Avusturalya 11,43 29,35 2, ,68 2,87 2 Avusturya 12,07 23,32 4, ,99 3,93 3 Belçika 13,17 23,8 4, ,47 3,82 4 Bolivya 5,75 41,89 1,67 189,13 0,22 5 Brezilya 12,88 42,19 0,83 728,47 4,56 6 Kanada 8,79 31,72 2, ,88 2,43 7 Şili 0,6 39,74 1,34 662,86 2,67 8 Cin 11,9 44,75 0,67 289,52 6,51 9 Kolombiya 4,98 46,64 1,06 276,65 3,08 10 Kosta Rika 10,78 47,64 1,14 471,24 2,8 11 Danimarka 16,85 24,42 3, ,53 3,99 12 Ekvator 3,59 46,31 1,19 287,77 2,19 13 Finlandiya 11,24 27,84 2, ,25 4,32 14 Fransa 12,64 25,06 4,7 2213,82 4,52 15 Almanya 12,55 23,31 3, ,12 3,44 16 Yunanistan 10,67 25,62 3,1 870,85 6,28 17 Guatemala 3,01 46,05 0,87 289,71 1,48 18 Honduras 7,7 47,32 0,58 232,44 3,19 19 İzlanda 1,27 34,03 3, ,1 1,12 20 Hindistan 9 41,31 0,96 88,94 1,54 21 İrlanda 11,34 31,16 4, ,95 2,99 22 İtalya 14,28 24,52 3, ,54 23 Japonya 21,1 27,01 1, ,28 8,21 24 Kore 3,98 41,74 0,91 207,68 5,81 25 Lüksemburg 10,35 21,8 3, ,39 1,57 26 Malta 15,48 32,54 2,47 601,05 8,12 27 Norveç 10,25 25,95 3, ,03 3,62 28 Hollanda 14,65 24,71 3, ,7 7,66 29 YeniZelanda 10,67 32,61 3, ,52 1,76 30 Nikaragua 7,3 45,04 1,21 325,54 2,48 31 Panama 4,44 43,56 1,2 568,56 3,61 32 Paraguay 2,02 41,18 1,05 220,56 1,03 33 Peru 12,7 44,19 1,28 400,06 0,67 34 Filipinler 12,78 46,26 1,12 152, Portekiz 12,49 28,96 2,85 579,51 7,48 36 Güney Africa 11,14 31,94 2,28 651,11 2,19 37 GüneyRhodesia 13,3 31,92 1,52 250, İspanya 11,77 27,74 2,87 768,79 4,35 39 İsveç 6,86 21,44 4, ,49 3,01 40 İsviçre 14,13 23,49 3, ,96 2,7 41 Türkiye 5,13 43,42 1,08 389,66 2,96 42 Tunus 2,81 46,12 1,21 249,87 1,13 43 İngiltere 7,81 23,27 4, ,93 2,01 44 Amerika 7,56 29,81 3, ,89 2,45 45 Venezuella 9,22 46,4 0,9 813,39 0,53 46 Zambia 18,56 45,25 0,56 138,33 5,14 47 Jameika 7,72 41,12 1,73 380,47 10,23 48 Uruguay 9,24 28,13 2,72 766,54 1,88 49 Libya 8,89 43,69 2,07 123,58 16,71 50 Malezya 4,71 47,2 0,66 242,69 5,08 76

92 5. UYGULAMA Hasan ERTAŞ Çizelge 5.2. EKK Kestiricisi İçin Regresyon Sonuçları Düzeltilmiş Kestirimin Standart Hatası Durbin-Watson,582,338,280 3,802 1,934 Kareler Kareler Toplamı sd Ortalaması F p Regresyon 332, ,229 5,756,001 Rezidü 650, ,460 Toplam 983, Katsayılar Standartlaştırılmış Katsayılar Standart B Hata Beta t p Sabit 28,56 7,335 3,884,000 -,461,145 -,942-3,189,003-1,691 1,084 -,487-1,561,126 -,000033,001 -,075 -,362,719,410,196,262 2,088,042 Elde edilen regresyon sonuçlarından, lineer regresyon modeli; =28,56 0,461 1,691 0, ,410 olarak bulunur. 77

93 5. UYGULAMA Hasan ERTAŞ 5.2. Bir Sapan Gözlemin Regresyon Doğrusu Üzerindeki Etkisinin İncelenmesi Sapan, Aykırı Değer ve Etkili Gözlem Ölçüleri Sapan gözlemlerin belirlenmesi sırasında kullanılan ölçüler için kritik değerler ikinci bölümde de belirtildiği gibi olup Çizelge 5.3. de verilmiştir. Bunun yanında, kritik değerlerin uygun olmadığı durumlarda gözlemler birbiriyle karşılaştırılarak yorumlanmıştır. Çizelge 5.3. Bazı Ölçüler İçin Kritik Değerler Ölçüler Kritik Değerler h 0,2 9,49 DFFITS 0,632 DFBETAS 0,282 W 6,708 D 2,58 1,897 COVRATİO [0,7; 1,3] Matlap 7.0 ve SPSS 15.0 programları yardımıyla Çizelge 5.4., Çizelge 5.5., Çizelge 5.6. ve Çizelge 5.7. oluşturulmuştur. Çizelge 5.4. deki sonuçlar incelendiğinde;,, ve ( ) değerlerine göre 7. ve 46. gözlemlerin y-yönünde sapan değer (Aykırı değer) olduğu saptanmıştır. Çizelge 5.5. deki sonuçlar incelendiğinde ; h değerlerine göre 21., 23., 44. ve 49. gözlemlerin, değerlerine göre 23., 44. ve 49. gözlemlerin, X- yönünde sapan değer oldukları; değerlerine göre 7., 23., 44., 46. ve 49. gözlemlerin, X ve y yönünde sapan değer olduğu görülmüştür. Çizelge 5.6. ya bakıldığında, ve ölçülerine göre; 23., 46. ve 49., ölçüsüne göre; 23. ve 46., ölçüsüne göre; 21., 23., 44., 46. ve 49. gözlemlerin etkili gözlemler olduğu ve ölçüsüne göre 49. gözlemin etkili gözlem olduğu söylenebilir. Varyans üzerindeki etkiyi gösteren COVRATIO ölçülerine göre 78

94 5. UYGULAMA Hasan ERTAŞ de 6., 7., 37., 44., 46. ve 49. gözlemler etkili gözlemlerdir. Çizelge 5.7. incelendiğinde; ölçüsüne göre 21., 23. ve 49. gözlemlerin parametresinin üzerinde, 10., 21., 23. ve 49. gözlemlerin üzerinde, 21., 23., 46. ve 49. gözlemlerin üzerinde, 23., 33., 47. ve 49. gözlemlerin üzerinde etkili oldukları söylenebilir. 79

95 5. UYGULAMA Hasan ERTAŞ Çizelge 5.4. Aykırı Değerlerle İlgili İstatistikler ( ) 1 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,1807-0, , , , , , , , , , , , , , , , , , , , , , ,7312-6, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,2104-0, , , , , , , , , , , , ,1765-0, , , , , ,197-1, , , , , , , , ,701-0, , , , , , , , , , , ,7496-3, , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,0893-6, , , , , ,

96 5. UYGULAMA Hasan ERTAŞ Çizelge 5.5. X- yönündeki Sapan Değerlerle İlgili İstatistikler h 1 0, , , , , , , , , , , , , , , , , , , ,8476 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

97 5. UYGULAMA Hasan ERTAŞ Çizelge 5.6. Etkili Gözlemlerle İlgili İstatistikler 1 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,3283 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,9344 0, , , , , , , , , , , , , , , , , , , , , ,74E-05 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,0846 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,1337 0, , , , , , , , , , , , , , , , , ,8732 0, , , , , , , , , , , , , , , , , ,2331 0, , , , , , , , , , , ,3131 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,0946 0, , , , , , , , , , , , , , , , , ,1872 0, , ,864 0, ,4804 2, , , , , , , ,

98 5. UYGULAMA Hasan ERTAŞ Çizelge 5.7. Etkili Gözlemlerle İlgili İstatistikler 1 0, , , , , , , , , , , ,0515 0,1207-0, , , ,0127-0, , , , , , , , , , , , , , , , , , , , , ,0518 0, ,0391-0, , , , , , , , , , , , ,1522 0, , , , ,0195 0, ,1135 0, , , , ,166 0, ,219-0, , , , , , , ,1482 0, , , , , , , , , , , ,0102 0, , , , , , , , , , , , , , , , , , , , , , , , ,6739 0,1461 0, , , , , , , , ,0438-0, , , , , , , , , , , , , , , , , , ,0651 0, , , , ,0179 0, , , , , , , , , , , , , , , , , , , , , ,1114-0, ,0214 0, ,0038 0, , , ,0203-0, , , ,1439-0, , , , , , , , , , , , , , , , , , , , , , , , , ,105-0, , , , , , , , ,0691-0, , , , , ,1008-0, , , , , , , , , , , , , , ,1288 0, , , , , , , , , , , , ,

99 5. UYGULAMA Hasan ERTAŞ Tek Sapan Gözlemlerin Grafiklerle İncelenmesi Bütün bu ölçü incelenmesinden sonra SPSS 15.0 yardımıyla Kestirilmiş Değer- Rezidü Grafiği, Leverage-Studentized Rezidü Grafiği, Cook-Welsch ve Kuh Uzaklığı Grafiği ve Düzeltilmiş Cook ve Welsh Uzaklığı Grafikleri İncelenmiştir. Şekil 5.1. Kestirilmiş Değer-Rezidü Grafiği 84

100 5. UYGULAMA Hasan ERTAŞ Şekil 5.2. Leverage- Studentized Rezidü Grafiği Şekil 5.3. Cook Welsch ve Kuh Uzaklığı Grafiği 85

101 5. UYGULAMA Hasan ERTAŞ Şekil 5.4. Düzeltilmiş Cook -Welsch Uzaklığı 5.3. Tek Sapan Gözlemler İçin Genel Sonuç Çizelge 5.8. Tek Sapan Gözlemler İçin İnceleme h ( ) İ İ * * * * * * * * * * * * * * *: Etkili +:Daha az etkili Çizelge 5.8. de tek sapan gözlemlerin belirlenebilmesi için kullanılan istatistikler ve bu istatistiklerin işaret ettiği gözlemler verilmiştir. + sembolü, Çizelge 5.3. de verilen kritik değerlerden çok fazla uzaklaşmayan veya gözlemlerin kendi aralarında karşılaştırmaları sonucu çoğunluktan aşırı biçimde kopmayan 86

102 5. UYGULAMA Hasan ERTAŞ gözlemleri belirtmektedir. * sembolü de Çizelge 5.3. de verilen kritik değerlerden daha fazla uzaklaşan veya gözlemlerin kendi aralarında karşılaştırmaları sonucu çoğunluktan aşırı biçimde kopan gözlemleri belirtmektedir. Çizelge 5.8. e göre; 21., 23., 44. ve 49. gözlemler X-yönünde sapan değerler olup bu gözlemlerden, 44. ve 49. gözlemler etkili gözlem olarak saptanmıştır ve 49. gözlemin diğerlerine oranla daha etkili gözlem olduğu belirlenmiştir. Bununla birlikte 7. ve 46. gözlemler y-yönünde sapan değerler olup 46. gözlem etkili gözlem olduğu söylenebilir. Ayrıca 7., 21., 44., 46. ve 49. gözlemin X ve y-yönünde sapan değer olup, bu gözlemlerden 46. ve 49. gözlemin etkili gözlem olduğu görülmüş ve 49. gözlemin diğerlerine oranla daha etkili olduğu saptanmıştır. Bütün bu gözlemlerin dışında 6. ve 37. gözlemlerin de COVRATİO ölçüsü yardımıyla varyans üzerinde etkili oldukları görülmüştür. 87

103 5. UYGULAMA Hasan ERTAŞ İkinci uygulamada 3. bölümde verilen genel yanlı sınıf kestiriciler içerisinden ridge, modified ridge, Liu ve modified Liu kestiricileri ve bu kestiriciler için 4. Bölümde verilen tanılama ölçüleri ve EKK kestiricisi için rezidü, leverage, Cook ve Welsch-Kuh Uzaklığı ölçüleri "Longley" veri kümesi (Longley, 1967) kullanılarak incelenecektir Longley Verisi Longley (1967) verisinde, yılları arasında istihdamın; : Zımmi fiyat deflatörü, : Gayri Safi Milli Hasıla (GSMH), : İşsizlik, : Askeri kuvvetlerin büyüklüğü, : 14 yaş ve üzeri nüfus, : Yıl, açıklayıcı değişkenlerine bağlı değişimi incelemiştir (Çizelge 5.9.). Çoklu regresyon modeli; = 1+ + olarak ele alınacaktır. Burada matrisi, korelasyon formunda olacak şekilde standartlaştırılmıştır. 88

104 5. UYGULAMA Hasan ERTAŞ Çizelge 5.9. Longley Verisi , , , , , , , , , , , , , Longley Veri Kümesi İçin Çoklu İç İlişkinin Belirlenmesi 1) Korelasyon matrisinin incelenmesi: Çoklu iç ilişki probleminin belirlenmesi yöntemlerinden birisi de korelasyon matrisinin incelenmesidir. Çizelge incelendiğinde;,,,, ve korelasyon katsayıları bire yakın olduğundan şiddetli çoklu iç ilişki olduğu söylenebilir. 89

105 5. UYGULAMA Hasan ERTAŞ Çizelge Longley Verisi İçin Korelasyon Matrisi ,000 0, , , , , , ,000 0, , , , , , ,000-0, , , , , , ,000 0, , , , , , ,000 0, , , , , , ,000 2) Varyans şişirme faktörü ( ), özdeğerler, koşul sayısı ve koşul indekslerin ( ) incelenmesi: ( ) matrisinin j. köşegen elamanı j.varyans şişirme faktörü olarak adlandırılır ve herhangi bir değeri 10 dan büyükse çoklu iç ilişki problemi vardır diyebiliriz. Bu durumda Çizelge incelendiğinde,,, ve değerleri eşik değer olarak 10 dan çok daha büyük olduğundan şiddetli çoklu iç ilişki probleminin var olduğunu söyleyebiliriz. Diğer bir belirleme kriteri ise öz değerlere bağlı olan koşul sayısı ve koşul indeksidir. Koşul sayısı, 11508,5 olup koşul indeksi ise, Çizelge e bakıldığında özellikle ve değerleri çok yüksek olduğundan şiddetli çoklu iç ilişki probleminin olduğunu söyleyebiliriz. Ayrıca, ve değerlerinin küçük olması çoklu iç ilişki probleminin olduğunu gösterir. 90

106 5. UYGULAMA Hasan ERTAŞ Çizelge Longley Verisi İçin Varyans Şişirme Faktörü İndeksi ( ) Değerleri, Özdeğerler ( ) ve Koşul 1 135,5324 4, ,513 1, , , , , , , , ,151 0, , ,9806 0, ,5 Korelasyon matrisi, değerleri, koşul sayısı, koşul indeksi ve öz değerler göz önüne alındığında şiddetli çoklu iç ilişki probleminin var olduğunu söyleyebiliriz. Bu durumda klasik EKK kestiricileri yerine yanlı tahmin edicilerinin kullanılması bizi daha doğru sonuçlara götürecektir Ridge, Modified Ridge, Liu ve Modified Liu Kestiriciler İçin Regresyon Sonuçları ve Tanılama Ölçüleri Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri Ridge kestiricisi için değeri, Mallows (1973) kriterine göre = elde edilir. Bu durumda ridge kestiricisi için,, değerleri ve model; = 0, ,47 0,4621 0,1889 0, ,074 =0,000527, =0,0047, = 0,9953 elde edilir ( sabit terimi çok küçük olduğundan modele dahil edilmemiştir). Walker ve Birch (1988), Longley (1967) veri kümesinde yaptığı incelemede ridge kestiricisi için Cook uzaklığına göre, 16., 10., 4., 15. ve 1. (bu sıralamaya göre) gözlemlerin etkili gözlem olduğunu saptamıştır. Bu çalışmada Cook uzaklığının 91

107 5. UYGULAMA Hasan ERTAŞ (4.15) ifadesindeki yaklaşım formülü kullanarak sonuçlar elde edilmiştir. Ridge kestiricisi için tanılama ölçüleri Çizelge de verilmiştir (Çizelge deki Welsch-Kuh Uzaklığı ve Cook Uzaklığı için yerine değeri kullanılmıştır). Çizelge ye bakıldığında; 10., 4., 15., 6., 1., 16. ve 5. gözlemlerin rezidüsünün diğer gözlemlerden yüksek olduğu, 16. gözlemin leverage değeri diğer gözlemlerden yüksek olduğu, ölçüsüne göre 16., 10., 4., 1. ve 15. gözlemlerin yüksek olduğu ölçüsüne göre 16., 10., 4., 15. ve 1. gözlemlerin etkili gözlem oldukları söylenebilir. Sonuç olarak 16. ve 10. gözlemler diğer gözlemlerle karşılaştırıldığında etkili olduğu, 4., 15. ve 1. gözlemlerin diğer gözlemlerle karşılaştırıldığında daha az etkili olduğunu söyleyebiliriz. Çizelge Ridge Kestiricisi İçin Tanılama Ölçüleri h No 1 0, , , , ,0067 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,9711 Bu incelemelerden sonra ridge kestiricisi için ölçüsüne ve ölçüsüne göre etkili gözlemlerin değerlerine göre grafikleri şu şekildedir: 92

108 5. UYGULAMA Hasan ERTAŞ Şekil 5.5. Ridge Kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil 5.6. Ridge Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı 93

109 5. UYGULAMA Hasan ERTAŞ Modified Ridge Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri Modified ridge kestiricisi için değeri, Mallows (1973) kriterine göre = elde edilir. Bu durumda modified ridge kestiricisi için,, değerleri ve model; = 0,0176 0,8199 0,5118 0,2002 0, ,3653 =0,000505, =0,00543, = 0,9955 elde edilir ( sabit terimi çok küçük olduğundan modele dahil edilmemiştir). Aboobacker, J. ve Chen, J. (2009) Longley (1967) veri kümesinde yaptığı incelemede modified ridge kestiricisi için Cook uzaklığına göre, 16., 4., 1., 10. ve 15. gözlemlerin (bu sıralamaya göre) etkili gözlemler olduğunu saptamıştır. Bu çalışmada Cook uzaklığının (4.15) ifadesindeki yaklaşım formülü kullanarak sonuçlar elde edilimiştir. Modified ridge kestiricisi için tanılama ölçüleri Çizelge de verilmiştir (Çizelge 5.13 deki Welsch-Kuh Uzaklığı ve Cook Uzaklığı için yerine değeri kullanılmıştır). Çizelge 5.13 e bakıldığında; 10., 4., 15., 5., 1., 6. ve 16. gözlemlerin rezidüsü diğer gözlemlerden yüksek olduğu, 16. gözlemin leverage değeri diğer gözlemlerden yüksek olduğu, ölçüsüne göre 16., 5., 4., 10. ve 15. gözlemlerin yüksek olduğu ölçüsüne göre 5., 16., 10., 4. ve 15. gözlemlerin etkili gözlem oldukları söylenebilir. Sonuç olarak 5. ve 16. gözlemler diğer gözlemlerle karşılaştırıldığında etkili olduğu, 4., 10. ve 15. gözlemlerin diğer gözlemlerle karşılaştırıldığında daha az etkili olduğunu söyleyebiliriz. 94

110 5. UYGULAMA Hasan ERTAŞ Çizelge Modified ridge Kestiricisi İçin Tanılama Ölçüleri h No 1 0, , , , , , , , , , , , , , , , , , , , ,0192 0, , , , , , , ,38E-05 0, ,26E-06 0, , , ,16E-06 0, , , , , , , ,59E-05 0, , , , , ,0128 0, , , , , , , , , , , , , , ,7727 Bu incelemelerden sonra modified ridge kestiricisi için ölçüsüne ve ölçüsüne göre etkili gözlemlerin değerlerine göre grafikleri şu şekildedir: Şekil 5.7. Modified Ridge Kestiricisi Dçin Değerlerine Göre Cook Uzaklığı 95

111 5. UYGULAMA Hasan ERTAŞ Şekil 5.8. Modified Ridge Kestiricisi için Değerlerine Göre Welsch-Kuh Uzaklığı Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri Liu kestiricisi için değeri, Liu (1993) kriterine göre = elde edilir. Bu durumda Liu kestiricisi için,, değerleri ve model; =0,0501 0,9803 0,5223 0,1971 0, ,4163 =0,000509, =0,0046, = 0,9954 elde edilir ( sabit terimi çok küçük olduğundan modele dahil edilmemiştir). Liu kestiricisi için tanılama ölçüleri Çizelge de verilmiştir (Çizelge deki Welsch-Kuh Uzaklığı ve Cook Uzaklığı için yerine değeri kullanılmıştır). Çizelge e bakıldığında; 10., 4., 15., 5., 6., 1. ve 16. gözlemlerin rezidülerinin diğer gözlemlerden yüksek olduğu, 16. gözlemin leverage değeri diğer gözlemlerden yüksek olduğu, ölçüsüne göre 5., 16., 10., 4. ve 15. gözlemlerin yüksek olduğu 96

112 5. UYGULAMA Hasan ERTAŞ ölçüsüne göre 5., 10., 4., 16. ve 15. gözlemlerin etkili gözlem oldukları söylenebilir. Sonuç olarak 5. ve 16. gözlemlerin diğer gözlemlerle karşılaştırıldığında etkili olduğu, 4., 10. ve 15. gözlemlerin diğer gözlemlerle karşılaştırıldığında daha az etkili olduğunu söyleyebiliriz. Çizelge Liu Kestiricisi İçin Tanılama Ölçüleri h No 1 0, , , , , , , , ,24E-05 0, ,32E-07-0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,0043 0, , , , , , , , , , , , , , , , , , ,40087 Bu incelemelerden sonra Liu kestiricisi için ölçüsüne ve ölçüsüne göre etkili gözlemlerin değerlerine göre grafikleri şu şekildedir: 97

113 5. UYGULAMA Hasan ERTAŞ Şekil 5.9. Liu kestiricisi İçin Değerlerine Göre Cook Uzaklığı Şekil Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı 98

114 5. UYGULAMA Hasan ERTAŞ Modified Liu Kestiricisi İçin Regresyon Sonuçları Ve Tanılama Ölçüleri Modified Liu kestiricisi için değeri, Liu (1993) kriterine göre = elde edilir. Bu durumda Modified Liu kestiricisi için,, değerleri ve model; =0,0464 1,0128 0,5372 0,2045 0, ,4779 =0,000502, =0,0045, = 0,9955 elde edilir( sabit terimi çok küçük olduğundan modele dahil edilmemiştir). Modified Liu kestiricisi için tanılama ölçüleri Çizelge de verilmiştir (Çizelge deki Welsch-Kuh Uzaklığı ve Cook Uzaklığı için yerine değeri kullanılmıştır). Çizelge e bakıldığında; 10., 4., 15., 5., 1., 6. ve 16. gözlemlerin rezidüsünün diğer gözlemlerden yüksek olduğu, 16. ve 5. gözlemlerin leverage değerlerinin diğer gözlemlerden yüksek olduğu, ölçüsüne göre 5., 16., 4., 10. ve 15. gözlemlerin yüksek olduğu ölçüsüne göre 5., 16., 10., 4. ve 15. gözlemlerin etkili gözlem oldukları söylenebilir. Sonuç olarak 5. ve 16. gözlemlerin diğer gözlemler karşılaştırıldığında etkili olduğu, 4., 10. ve 15. gözlemlerin diğer gözlemlerle karşılaştırıldığında daha az etkili olduğunu söyleyebiliriz. 99

115 5. UYGULAMA Hasan ERTAŞ Çizelge Modified Liu Kestiricisi için Tanılama Ölçüleri h No 1 0, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,69488 Bu incelemelerden sonra Modified Liu kestiricisi için ölçüsüne ve ölçüsüne göre etkili gözlemlerin değerlerine göre grafikleri şu şekildedir: Şekil Modified Liu Kestiricisi İçin Değerlerine Göre Cook Uzaklığı 100

116 5. UYGULAMA Hasan ERTAŞ Şekil Modified Liu Kestiricisi İçin Değerlerine Göre Welsch-Kuh Uzaklığı EKK Kestiricisi İçin Regresyon Sonuçları ve Tanılama Ölçüleri EKK kestiricisi için,, değerleri ve model (ham veri için); = ,061 0,0358 2, , , ,51 =92936,01, =836424,1 ve = 0,9955 elde edilir. EKK kestiricisi için tanılama ölçüleri Çizelge da verilmiştir. Çizelge ye bakıldığında; 10., 4., 15., 5., 1., 6. ve 16. gözlemlerin rezidülerinin diğer gözlemlerden yüksek olduğu, 16. ve 5. gözlemlerin leverage değerleri diğer gözlemlerden yüksek olduğu, ölçüsüne göre 5., 16., 4., 10. ve 15. gözlemlerin yüksek olduğu ölçüsüne göre 5., 16., 10., 4. ve 15. gözlemlerin etkili gözlem oldukları söylenebilir. Sonuç olarak 16. ve 5. gözlemlerin diğer gözlemlerle 101

117 5. UYGULAMA Hasan ERTAŞ karşılaştırıldığında etkili olduğu, 4., 10. ve 5. gözlemlerin diğer gözlemlerle karşılaştırıldığında daha az etkili olduğunu söyleyebiliriz. Çizelge EKK Kestiricisi İçin Tanılama Ölçüleri No h 1 267,3377 0, , , ,0163 0, , , , , , , ,117 0, , , ,7123 0, , , ,314 0, , , ,051 0, , , ,1827 0, , , , , , , ,3918 0, , , ,2713 0, , , ,0574 0, , , ,552 0, , , ,6737 0, , , ,9292 0, , , ,76 0, , ,86386 EKK, Ridge, modified ridge, Liu ve Modified Liu kestiricilerinin Cook Uzaklığına göre etkili gözlemleri Tablo de özetlenmiştir: Çizelge Ridge, modified ridge, Liu ve Modified Liu Kestiricilerinin Cook Uzaklığı No EKK Ridge Modified ridge Liu Modified Liu 5 0,6139-0,3423 0,4661 0, ,4666 0,5876 0,4974 0,3015 0, ,2441 0,2055 0,2449 0,2520 0, ,2352 0,2405 0,2380 0,2532 0, ,1703 0,1288 0,1659 0,1612 0, , Sonuç olarak EKK ve yanlı kestiriciler rezidü ölçüleri bakımından, aynı gözlemlerin rezidüsü diğer gözlemlerden büyük olduğu fakat etki düzeylerine göre sıralamaları farklı olmuştur. Bununla birlikte leverage ölçüsüne göre 5. ve 16. gözlemler EKK ve Modified Liu kestiricileri için yüksek leverage gözlemler 102

118 5. UYGULAMA Hasan ERTAŞ olmasına karşın ridge, modified ridge ve Liu kestiricisi için 5. gözlem yüsek leverage gözlemdir. Cook ve Welsch-Kuh Uzaklıklarına göre ise EKK, modified ridge, Liu ve Modified Liu kestiricileri için 16., 5., 10., 4. ve 15. gözlemler etkili gözlemler olup fakat etki düzeylerine göre sıralamaları farklı olmuştur, ancak ridge kestiricisi için 16., 10., 4., 1. ve 15. gözlemler etkili olarak saptanmıştır. 103

119 5. UYGULAMA Hasan ERTAŞ 104

120 6. SONUÇ VE ÖNERİLER Hasan ERTAŞ 6. SONUÇ VE ÖNERİLER Çalışmanın birinci bölümünde, çoklu lineer regresyon ile ilgili genel bilgiler verilmiş olup, çoklu iç ilişki problemi ve sapan değer kavramları üzerinde durulmuştur. Çalışmanın ikinci bölümünde, bir ve birden fazla sapan gözlemin çoklu lineer regresyon doğrusu üzerindeki etkisi ve bunların belirlenmesi için tanılama ölçüleri ele alınmıştır. Çalışmanın üçüncü bölümünde, çoklu iç ilişki problemi olması durumunda EKK kestiricisine alternatif yanlı kestiriciler ve yanlı kestiricilerin büyük bir kısmını içine alan bir sınıf ele alınmıştır. TOPÇUBAŞI (2001), Liu ve Genelleştirilmiş Liu kestiricilerinin bu sınıfta yer aldığını göstermiştir. Bu çalışmada ise Modified ridge ve Modified Liu kestiricilerinin bu sınıfta yer aldığı gösterilmiştir. Çalışmanın dördüncü bölümünde, ikinci bölümde EKK kestiricisi için verilen tanılama ölçülerine benzer düşünce ile Walker ve Birch (1988) ridge kestiricisi için bazı tanılama ölçüleri vermiştir. Benzer mantıkla genel yanlı sınıf kestiricileri için bu tanılama ölçüleri ele alınmıştır. Çalışmanın beşinci bölümünde, iki farklı uygulama yapılmıştır. Birincisi, ikinci bölümde ele alınan bir sapan değerin belirlenebilmesi için tanılama ölçüleri yardımıyla tek sapan değerler saptanmıştır. İkinci uygulamada ise, ridge, modified ridge, Liu ve Modified Liu kestiricileri için tanılama ölçüleri yardımıyla tek sapan değerler belirlenmiştir. Gelecekte yapılacak çalışmalar olarak, EKK kestiricisi için sapan değerleri belirlemede tanılama ölçüleri olarak çok fazla çalışmalar olmasına rağmen yanlı kestiriciler için tanılama ölçüleri fazla değildir. Bunun için yanlı kestiriciler için yeni tanılama ölçüleri tanımlanabilir. Bunun yanı sıra diğer bazı yanlı kestiricilerin genel yanlı sınıf olarak isimlendirilen bu sınıfa dahil edilebileceği gösterilebilir. Bu sınıfa dahil olmayan başka yanlı kestiriciler için tanılama ölçüleri tanımlanabilir ve genel yanlı sınıfa benzer bir sınıf altında toplanılabilir. Ayrıca yanlı kestiriciler ve yanlı kestiricilerin sınıfı için yerel etki yaklaşımı (Cook, 1986) uyarlanabilir. 105

121 6. SONUÇ VE ÖNERİLER Hasan ERTAŞ 106

122 KAYNAKLAR ABOOBACKER, J and CHEN, J (2009) Assesing Global Influential Observation in Modified Ridge Regression Statistics and Probability Letters Volume:79 pg: AKDENİZ, F., and KAÇIRANLAR, S. (1995), On the Almost Unbiased Generalized Liu Estimator and Unbiased Estimation of the Bias and MSE. Comm. Statist. Theory Methods, 24, ANDREWS D.F. and PREGİBON D. (1978), Finding Outliers That Matter, Journal of Royal Statistical Society(B), 40, pg AŞIKGİL, B. (2006), Çoklu Doğrusal Regresyonda Aykırı, Etkili Değerlerin Araştırılması ve Bir Uygulama, Yayınlanmış Yüksek Lisans Tezi, Mimar Sinan Üniversitesi, İstanbul ATKINSON A.C. (1985), Plots, Transformations and Regression. Oxford University. BELSLEY D.A., KUH E. and WELSCH R.E. (1980), Regression Diagnostics: Identifying Influential Data and Sources of Collinearity, New York: John Wiley&Sons. BİLLOR, N. (1992), Diagnostic Methods in Ridge Regression and Errors in- Variables Model, Unpublished Ph.D Dissertation, Sheffield University Department of Probability and Statistics. CHALTON, D.O. and TROSKİE, C.G. (1992), Identification of Outlying and Infulential Data with Biased Estimaton: A simulation Study, Communication in Statistics-Simulation, 21(3), CHATTERJEE S. and HADİ A.S. (1986), Influential Observations, High Leverage Points and Outliers In Linear Regressions, Statistical Science, Institute of Mathematical Statistics Volume 1, No.3, pg CHATTERJEE S. and HADİ A.S. (1988), Sensitivity Analysis In Linear Regression, New York: John Wiley&Sons. COOK R.D. (1977), Detection of Influential Observation In Linear Regression, Technometrics, Volume 19, No.1, pg

123 COOK R.D. and WEİSBERG S. (1994), An Introduction To Regression Graphics, John Wiley&Sons. DRAPER N.R. and JOHN J.A. (1981), Influential Observations and Outliers In Regression, Technometrics, Volume 23, No.1, pg FARRAR, D. E. and GLAUBER, R. R. (1967), Multicollinearity in Regression Analysis: The Problem Revisited. The Review of Economics and Statistics, 49, 1, GRUBER, M. H. J. (1998), Improving Efficiency by Shrinkage: The James-Stein and Ridge Regression Estimators. Marcell Dekker, Inc. New York. HADİ A.S. (1992), A New Measure of Potential Influence In Linear Regression, Computatial and Data Analysis No.14 pg HOAGLIN D.C. and WELSCH R.E. (1978), The Hat Matrix In Regression and Anova, The American Statistician No.32 pg HOERL, A. E., and KENNARD, R. W.,(1970), Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12, 1, HOERL, A.E., KENNARD, R.W., and BALDWIN, K. F., Ridge Regression: Some Simulation. Communication in Statistics, 4, HOCKING, R.R., SPEED, F.M. and LYNN, M.J. (1976), A Class of Biased Estimator in Linear Regression, Technometrics, Volume 18, No 4, HOTELLING, H. (1933), Analysis of a Complex of Statistical Variables into Principal Components. Journal of Educational Pschology, 24, and JUDGE, G. G., GRIFFITHS, W. E., HILL, R. C., LÜTKEPOHL, H., and LEE, T-C., (1985 ), The Theory and Practice of Econometrics, John Wiley and Sons, NewYork, 1018p. KIRAL, G. (1996) Çok Değişkenli Lineer Regresyon Modelinde Etkili Gözlemlerin Saptanmasına İlişkin Ölçüler, Yayınlanmış Yüksek Lisans Tezi, Çukurova Üniversitesi, Adana LAWLESS, J. F. and WANG, P., (1976), A Simulation Study of Ridge and Other Regression Estimators. Communication in Statistics, 7,

124 LEE, W. (1986), Fractional Principal Components Regression: A General Approach to Biased Estimator, Unpublished Ph.D Dissertion, Virginia Polytechnic Institue and State University Department of Statistics. LEE W. and BİRCH J.B. (1988), Fractional Principal Components Regression: A General Approach to Biased Estimator, Commun. Statist.-Simula., 17(3), LIPOVETSKY, S. and CONKLIN, W. M. (2001), Multiobjective Regression Modifications for Collinearity. Computers and Operations Research, 28, LIU, K., (1993), A New Class of Biased Estimate in Linear Regression. Comm. Statist. Theory Methods, 22, 2, LONGLEY, J.W. (1967), An Appraisal of Least Squrares Programs fort the Electronic Computer from Point of View of the User, Journal of the American Statistical Association, 62, MALLOWS, C. L., (1973). Some Comments on p. Technometrics, 15, MARQUARDT, D. W. (1970), Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear Estimation. Technometrics, 12, McDONALD, G. C., and GALARNEAU, D. I., (1975), A Monte Carlo Evaluation of Some Ridge-Type Estimators. Journal of the American Statistical Association, 70, 350, MODIGLIANI, F. (1975) The Life Cycle Hypothesis of Saving, Twenty Years Later, in Contemporary Issues in Economics, Micheal Parkin, Ed., University Press, Manchester. MONTGOMERY D.C. and PECK E.A. (1992), Introduction To Linear Regression Analysis, Second Edition, John Wiley&Sons. ÖZKALE, M.R. (2007) Çoklu İç İlişki İle İlgili Problemler, Yayınlanmış Doktora Tezi, Çukurova Üniversitesi, Adana. RAWLINGS J.O., PANTULA S.G. and DICKEY D.A. (1998), Applied Regression Analysis; A Research Tool, Second Edition, Springer-Verlag New York, Inc. 109

125 SILVEY, S. D., (1969). Multicollinearity and Imprecise Estimation. Journal of the Royal Statistical Society, Series B (Methodological), 31, 3, STEIN, C.M. (1960), Multıple Regression Contributions to Probability and Statistics, Essays in Hanor of Harold Hotelling, Stanford University Press, STERLING, A. (1977), An Investigation of the determinants of the Long-Run Savings Ratio, unpublished B.S. Thesis, Massachusetts Institute of Technology, Cambirdge, Mass. SWINDEL, F. F. (1976), Good Ridge Estimators Based on Prior Information. Comm. Statist. Theory Methods, A5 (11), THEOBALD, C. M. (1974), Generalizations of Mean Square Error Applied to Ridge Regresion. Journal of the Royal Statistical Society. Series B (Methodological), 36, 1, TOPÇUBAŞI, A.S. (2001), Yanlı Regresyon Kestiriminde Sapan Değerlerin Belirlenmesi İçin Tanılama Ölçüleri, Yayınlanmış Yüksek Lisans Tezi, Çukurova Üniversitesi, Adana VINOD, H. D. and ULLAH, A. (1981), Recent Advances in Regression Methods. Marcel Dekker, New York, 361p. WALKER, E. (1990), Influential Diagnostics for Fractiional Principal Components Estimator in Regression, Communication in Statistics-Simulation, 19(3), WALKER, E. and BİRCH, J.B. (1988), Influence Measures in Ridge Regression, Technometrics, 30, WEISBERG S. (1985), Applied Linear Regression, Second Edition, John Wiley&Sons, Inc. WELSCH R.E. and KUH E. (1977) Linear Regression Diagnostics, Technical Report , Sloan School of Management, Massachusett Institute of Technology. WELSCH R.E. (1982), Influence Functions and regression Diagnostics, Modern Data Analysis, New York: Academic Press. 110

126 YALIAN L. and HU Y. (2010), A New Liu-Type Estimator in Linear Regressions Model, Statical Papers, Doi: 1O.1007/s y. 111

127 112

128 ÖZGEÇMİŞ 1985 yılında Adana da doğdu. İlk, orta ve lise öğrenimimi Adana da tamamladıktan sonra 2002 yılında Cumhuriyet Üniversitesi Fen Edebiyat Fakültesi Matematik Bölümü nde lisans öğrenimime başladı yılında bu bölümden mezun olduktan sonra 2009 yılında Çukurova Üniversitesi Fen Bilimleri Enstitüsü İstatistik Bölümü nde yüksek lisansa başlayıp aynı yıl Artvin Çoruh Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü nde araştırma görevlisi olarak göreve başladı. Halen aynı göreve devam etmektedir. 113

Daha göster