ÖZLEM YORULMAZ Dayanıklı İstatistiksel Yöntemler ve R Uygulamaları İstanbul - 2016 Beta
Yayın No : 3440 İşletme Ekonomi Dizisi : 825 1. Baskı - Kasım 2016 - İSTANBUL ISBN 978-605 - 333-769 -0 Copyright Bu kitab n bu bas s n n Türkiye deki yay n haklar BETA Bas m Yay m Da t m A.fi. ye ait tir. Her hak k sak l d r. Hiç bir bö lü mü ve pa rag ra f k s men ve ya ta ma men ya da özet halinde, fotokopi, faksimile veya baflka herhangi bir flekilde ço alt lamaz, da t lamaz. Normal ölçüyü aflan iktibaslar yap lamaz. Normal ve kanunî iktibaslarda kaynak gösterilmesi zorunludur. Dizgi : Beta Bas m A.fi. Bask -Cilt : Birlik Fotokopi Baskı Ozalit Gıda San. Tic. Ltd. fiti. Nispetiye Mah. Birlik Sokak No: 2 Nevin Arıcan Plaza 1. Levent/Beşiktaş/ ST. Tel: (0-212) 269 30 00 (Sertifika No. 20179) Kapak Tasar m : Veysel Coşkun Beta BASIM YAYIM DA ITIM A.Ş. (Sertifika No. 16136) Narl bahçe Sokak No. 11 Ca alo lu - STANBUL Tel : (0-212) 511 54 32-519 01 77 Fax: (0-212) 513 87 05-511 36 50 www.betayayincilik.com
Canım Aileme
ÖNSÖZ Veri kümesinde gözlemlerin çoğunluğundan farklı yapı sergileyen aykırı gözlemler istatistiksel analiz sonuçlarını yönlendirerek, tahmin sonuçlarının güvenilirliğini etkileyebilmektedir. Yerleşik yaklaşımda, analiz öncesinde aykırı gözlemlerin etkisini ortadan kaldırmak için eğer veri kümesi iki boyutlu ise serpilme diyagramından hareketle ya da veri kümesi çok boyutlu ise çeşitli ölçütlerle sıra dışı olan gözlemler belirlenerek veriden uzaklaştırılır. Ancak aykırı gözlemleri belirlemek amacıyla kullanılan bu ölçütler de genellikle aykırı gözlemler tarafından yönlendirildiği için doğru saptamalar yapılamaz ve buna bağlı olarak da sonuçlar yanlış yönde etkilenir. Bu koşullarda aykırı gözlemlerin etkisi karşısında dirençli olan dayanıklı tahmincilerin kullanımı güvenilir ve doğru sonuçlar verir. Dayanıklı tahminciler özellikle son çeyrek yüzyılda oldukça önem kazanmıştır, birçok araştırmacı bu konudaki teorik gelişmelerden hareketle veri analizinin güvenilirliğini artırmak için klasik istatistiksel metotları dayanıklı hale getirmektedir. Bu kitapla giriş düzey istatistik bilgisine sahip olan araştırmacı ve öğrenciler için aykırı gözlemlerin istatistiksel metotlar üzerindeki etkisini görünür kılmak ve aykırı gözlemlere karşı dirençli olan çeşitli dayanıklı tahmincilerin öğrenilmesini sağlamak amaçlanmıştır. Bu amaç doğrultusunda da konular simülasyon çalışmaları ve örneklerle somutlaştırılmıştır. Kitapta yer verilen örnekler, araştırmacıların karşılaştırma yapabilmelerini sağlamak amacıyla çoğunluka R programından seçilmiştir. Kitap altı bölümden oluşmaktadır. İlk bölüm aykırı gözlem tanımı, aykırı gözlemlerin en küçük kareler yöntemiyle tahmin edilen regresyon denklemi üzerindeki etkileri, aykırı gözlem türleri ve bunların klasik yaklaşımla belirlenmesi konularını içerir. Bunlara ek olarak ilk bölümde, klasik yaklaşımla aykırı gözlemlerin belirlenmesi aşamasında karşılaşılan sıkıntılar da ele alınmıştır. İkinci bölümde ise dayanıklı tahminci kavramı ve neden dayanıklı tahmincilerin aykırı gözlemlerin varlığında kullanılması gerektiği teorik ve simülasyon çalışmaları ile açıklanmıştır. Ayrıca bu bölümde, izleyen bölümlerde kullanılacak olan dayanıklı tahminci türlerine ve aykırı gözlemlerin dayanıklı yaklaşımla belirlenmesi konularına yer verilmiştir. Üçüncü ve dördüncü bölümlerde sırasıyla kanonik korelasyon analizi, temel bileşenler ve faktör analizleri gibi boyut indirgeme yöntemleri hem klasik hem de dayanıklı yaklaşımlarla anlatılmıştır. Beşinci bölümde ise örneklem indirgeme tekniği olarak isimlendirilen kümeleme yöntemleri hakkında genel bir bilgi sunularak, K-ortalamalar tekniği ve
dayanıklı alternatifi olan K-kırpılmış ortalamalar tekniği açıklanmıştır. Son olarak altıncı bölümde R programına ilişkin temel bilgiler ve önceki beş bölüm uygulamalarında kullanılan komutlar okuyucuya sunulmuştur. Kitapta ortaya çıkabilecek baskı ve ifade hataları ile değerli okuyucuların önerileri titizlikle dikkate alınarak, bir sonraki baskıda gerekli düzeltmeler yapılmaya çalışılacaktır. Bu kitabı yazma aşamasında önerileriyle bana katkıda bulunan değerli hocam Prof.Dr. Karun Nemlioğlu na ve bütün yazılanları okuyarak hataların giderilmesindeki görüşlerini, başımın sıkıştığı her an yardımını ve içtenliğini esirgemeyen değerli arkadaşım Doç.Dr. Ferda Yerdelen Tatoğlu na teşekkürü borç bilirim. Sıkıntılı geçen kitap yazma sürecim boyunca bana olan destek, ilgi ve sabırlarını hiçbir zaman eksik etmeyen anneme, babama ve kardeşime müteşekkirim. Kitabın kısa sürede yayımlanmasını sağlayarak okuyucu ile iletişimimi mümkün kılan Seyhan Satar a ve Beta Yayınevi çalışanlarına çok teşekkür ederim. Kitabın okuyuculara yararlı olması dileğiyle... Özlem Yorulmaz Ekim 2016 VI
İÇİNDEKİLER BÖLÜM 1 AYKIRI GÖZLEM TANIMI, TÜRLERİ VE BELİRLENMESİ 1.1. Aykırı Gözlemler... 1 1.2. Regresyon Analizi ve En Küçük Kareler Yöntemi... 2 1.3. Aykırı Gözlem Türleri... 7 1.3.1. Dikey Aykırı Gözlemler... 7 1.3.2. İyi Kaldıraç Noktası... 7 1.3.3. Kötü Kaldıraç Noktası... 8 1.4. Aykırı Gözlemlerin Klasik Yöntemlerle Belirlenmesi... 9 1.4.1. Dikey Aykırı Gözlemlerin Belirlenmesi... 10 1.4.1.1. Standartlaştırılmış Artıklar ile Belirleme... 10 1.4.1.2. Student Türü Artıklar ile Belirleme... 10 1.4.1.3. Silinmiş Artıklar ile Belirleme... 11 1.4.1.4. Student Türü Silinmiş Artıklar ile Belirleme... 11 1.4.1.5. Bonferonni Düzeltmesi-Aykırı Gözlem Testi... 12 1.4.2. X Yönlü Aykırı Gözlemlerin Belirlenmesi... 12 1.4.2.1. Mahalanobis Uzaklığı ile Belirleme... 13 1.4.3. Kötü Kaldıraç Noktalarının ve Etkin Gözlemlerin Belirlenmesi... 14 1.4.3.1. DFFITS Ölçütü ile Belirleme... 14 1.4.3.2. Cook Uzaklığı ile Belirleme... 14 1.4.3.3. DFBETAS Ölçütü ile Belirleme... 15 1.5. Uygulamalar... 15 1.5.1. Stars Verisi... 16 1.5.2. Hawkins Bradu Kass Verisi... 21 1.6. Maskeleme ve Süpürme Etkisi... 24
BÖLÜM 2 DAYANIKLI TAHMİNCİLER 2.1. Karma Model ve Dayanıklı Tahminci Özellikleri... 27 2.1.1. Kırılma Noktası... 30 2.1.2. Etki Fonksiyonu... 32 2.2. Merkezi Eğilim-Konum Ölçütleri... 33 2.2.1. Aritmetik Ortalama... 33 2.2.2. Medyan... 34 2.2.3. Kırpılmış Ortalama... 35 2.2.4. Winsorize Ortalama... 36 2.3. Yayılım Ölçütleri... 37 2.3.1. Standart Sapma... 37 2.3.2. Medyan Mutlak Sapma... 38 2.3.3. Kartiller Arası Fark (IQR) ve Kutu Diyagramı... 39 2.4. Dayanıklı Tahminciler Neden Tercih Edilmeli?... 43 2.5. Dayanıklı Tahminci Türleri... 48 2.5.1. L Tahmincileri... 48 2.5.2. M Tahmincileri... 48 2.6. Dayanıklı ve Çok Değişkenli Konum ve Ölçek Tahmincileri... 50 2.6.1. En Küçük Hacimli Elipsoid Tahmincisi... 51 2.6.2. En Küçük Determinantlı Kovaryans Tahmincisi... 52 2.6.3. OGK Tahmincisi... 52 2.6.4. S Tahmincisi... 53 2.6.5. MM Tahmincisi... 53 2.7. Uygulamalar I... 54 2.6.5. Animals verisi... 54 2.8. Dayanıklı Regresyon Analiz Teknikleri... 57 2.8.1. En Küçük Mutlak Sapmalar Tahmincisi ve Kantil Regresyon... 57 2.8.2. Regresyon Parametrelerinin M Tahmini... 58 2.8.3. En Küçük Medyan Kareler Tahmincisi... 62 VIII
2.8.4. En Küçük Kırpılmış Kareler Tahmincisi... 63 2.8.5. Regresyon Parametrelerinin GM Tahmini... 63 2.8.6. Regresyon Parametrelerinin Coakley Hettmansperger Tahmini... 64 2.8.7. Regresyon Parametrelerinin S Tahmini... 65 2.8.8. Regresyon Parametrelerinin MM Tahmini... 66 2.9. Dayanıklı Regresyon Analizinde Çıkarsama ve Gücün Belirlenmesi... 66 2.10. Regresyon Analizinde Aykırı Gözlemlerin Dayanıklı Yöntemlerle Belirlenmesi... 68 2.10.1. Standartlaştırılmış Dayanıklı Artıklar ile Belirleme... 68 2.10.2. Dayanıklı Aykırı Gözlem Teşhis Çizimi ile Belirleme... 69 2.11. Uygulamalar II... 70 2.11.1. Stars Verisi... 70 2.11.2. Hawkins Bradu Kass Verisi... 72 2.11.3. Coleman Verisi... 73 2.11.4. Gelir Eşitsizliği Verisi... 75 2.11.5. Engel Verisi... 77 2.11.6. Otomobil Verisi... 78 BÖLÜM 3 KANONİK KORELASYON ANALİZİ 3.1. Klasik Kanonik Korelasyon Analizi... 82 3.2. Dayanıklı Kanonik Korelasyon Analizi... 85 3.3. Uygulamalar... 86 3.3.1. İnsani Gelişmişlik ve Cinsiyet Eşitsizliği İndeksleri Verisi... 86 3.3.2. Yaşam Boyu Tasarruf Verisi... 90 3.3.3. Öğrenci Başarısını Etkileyen Faktörler Üzerine Veri... 93 BÖLÜM 4 TEMEL BİLEŞENLER VE FAKTÖR ANALİZLERİ 4.1. Klasik Temel Bileşenler Analizi... 98 4.2. Klasik Faktör Analizi... 99 IX
4.3. Dayanıklı Temel Bileşenler Analizi... 101 4.4. Dayanıklı Faktör Analizi... 103 4.5. Uygulamalar... 103 4.5.1. Ülkelere ait Sosyo-ekonomik ve Demografik Özellikler Verisi... 103 4.5.2. Otomobil Verisi... 107 4.5.3. Tüketim Harcamaları Verisi... 110 4.5.4. Stock-611 Verisi... 112 BÖLÜM 5 KÜMELEME ANALİZİ 5.1. Klasik Kümeleme Analizi... 115 5.2. Dayanıklı Kümeleme Analizi... 119 5.3. Uygulamalar... 120 5.3.1. Ruspini Verisi... 120 5.3.2. Kişi Başına Düşen Milli Gelir ve Bebek Ölümleri Verisi... 123 5.3.3. CO 2 Emisyonu ve FDI Verisi... 125 BÖLÜM 6 R ve BÖLÜMLERDEKİ UYGULAMALAR 6.1. Temel Bilgiler... 127 6.1.1. Aritmetik İşlemler ve Değişken Atama... 130 6.1.2. Veri Okuma ve Değişken Atama... 133 6.1.3. Fonksiyonlar... 134 6.1.4. Grafikler... 139 6.2. Bölüm 1 Uygulamaları... 141 6.3. Bölüm 2 Uygulamaları... 143 6.4. Bölüm 3 Uygulamaları... 148 6.5. Bölüm 4 Uygulamaları... 151 6.6. Bölüm 5 Uygulamaları... 152 KAYNAKÇA... 153 DİZİN... 157 X