REGRESYONDA ETKİLİ GÖZLEMLERİ BELİRLEME YÖNTEMLERİ VE KARŞILAŞTIRMALARI. Can DARICA YÜKSEK LİSANS TEZİ İSTATİSTİK

Benzer belgeler
ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

Korelasyon ve Regresyon

HAFTA 13. kadın profesörlerin ortalama maaşı E( Y D 1) erkek profesörlerin ortalama maaşı. Kestirim denklemi D : t :

Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ

Kİ-KARE TESTLERİ. şeklinde karesi alındığında, Z i. değerlerinin dağılımı ki-kare dağılımına dönüşür.

PARÇALI DOĞRUSAL REGRESYON

Kİ KARE ANALİZİ. Doç. Dr. Mehmet AKSARAYLI Ki-Kare Analizleri

X, R, p, np, c, u ve diğer kontrol diyagramları istatistiksel kalite kontrol diyagramlarının

Sıklık Tabloları ve Tek Değişkenli Grafikler

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Merkezi Eğilim (Yer) Ölçüleri

YAŞAM ÇÖZÜMLEMESİNDE AYKIRI DEĞERLER OUTLIERS IN SURVIVAL ANALYSIS

ENDÜSTRİNİN DEĞİŞİK İŞ KOLLARINDA İHTİYAÇ DUYULAN ELEMANLARIN YÜKSEK TEKNİK EĞİTİM MEZUNLARINDAN SAĞLANMASINDAKİ BEKLENTİLERİN SINANMASI

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

Doğrusal Korelasyon ve Regresyon

SEK Tahmincilerinin Arzulanan Özellikleri. SEK Tahmincilerinin Arzulanan Özellikleri. Ekonometri 1 Konu 9 Sürüm 2,0 (Ekim 2011)

Kİ-KARE VE KOLMOGOROV SMİRNOV UYGUNLUK TESTLERİNİN SİMULASYON İLE ELDE EDİLEN VERİLER ÜZERİNDE KARŞILAŞTIRILMASI

NİTEL TERCİH MODELLERİ

BÖLÜM 5 İKİ VEYA DAHA YÜKSEK BOYUTLU RASGELE DEĞİŞKENLER İki Boyutlu Rasgele Değişkenler

REGRESYON ANALİZİ BÖLÜM 5-6

PARAMETRİK OLMAYAN HİPOTEZ TESTLERİ Kİ-KARE TESTLERİ

T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

A İSTATİSTİK. 4. X kesikli rasgele (random) değişkenin moment çıkaran. C) 4 9 Buna göre, X in beklenen değeri kaçtır?

Sürekli Olasılık Dağılım (Birikimli- Kümülatif)Fonksiyonu. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

kadar ( i. kaynağın gölge fiyatı kadar) olmalıdır.

Tek Yönlü Varyans Analizi (ANOVA)

Sorunun varlığı durumunda hata terimi varyans-kovaryans matrisi Var, Cov(u) = E(uu') = σ 2 I n şeklinde yazılamıyor fakat

Asimetri ve Basıklık Ölçüleri Ortalamalara dayanan (Pearson) Kartillere dayanan (Bowley) Momentlere dayanan asimetri ve basıklık ölçüleri

dir. Bir başka deyişle bir olayın olasılığı, uygun sonuçların sayısının örnek uzaydaki tüm sonuçların sayısına oranıdır.

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ÇOKLU İÇ İLİŞKİ VE EKOLOJİK REGRESYON İSTATİSTİK ANABİLİM DALI

ALGILANAN HİZMET KALİTESİ VE LOJİSTİK REGRESYON ANALİZİ İLE HİZMET TERCİHİNE ETKİSİNİN BELİRLENMESİ. Özet

SEK Yönteminin Güvenilirliği Sayısal Bir Örnek. Ekonometri 1 Konu 11 Sürüm 2,0 (Ekim 2011)

Farklı Varyans. Var(u i X i ) = Var(u i ) = E(u i2 ) = σ i2. Eşit Varyans. Hata. Zaman

5.3. Tekne Yüzeylerinin Matematiksel Temsili

BÖLÜM 1 1.GİRİŞ: İSTATİSTİKSEL DOĞRUSAL MODELLER

MIT Açık Ders Malzemeleri Bu materyallerden alıntı yapmak veya Kullanım Koşulları hakkında bilgi almak için

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ

YARIPARAMETRİK KISMİ DOĞRUSAL PANEL VERİ MODELLERİYLE ULUSLAR ARASI GÖÇ

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

İki veri setinin yapısının karşılaştırılması

FARKLI VERİ YAPILARINDA KULLANILABİLECEK REGRESYON YÖNTEMLERİ

İSTATİSTİK DERS NOTLARI

bir yol oluşturmaktadır. Yine i 2 , de bir yol oluşturmaktadır. Şekil.DT.1. Temel terimlerin incelenmesi için örnek devre

Sabit Varyans. Var(u i X i ) = Var(u i ) = E(u i2 ) = s 2

Tek Yönlü Varyans Analizi

YÖNETİM VE EKONOMİ Yıl:2006 Cilt:13 Sayı:1 Celal Bayar Üniversitesi İ.İ.B.F. MANİSA

Muhasebe ve Finansman Dergisi

Bilgisayarla Görüye Giriş

Makine Öğrenmesi 10. hafta

Farklı Varyans. Var(u i X i ) = Var(u i ) = E(u i2 ) = s 2 Eşit Varyans

ASAL BİLEŞENLER ANALİZİNE BOOTSTRAP YAKLAŞIMI

UYGULAMA 2. Bağımlı Kukla Değişkenli Modeller

TRANSPORT PROBLEMI için GELIsTIRILMIs VAM YÖNTEMI

ALTERNATİF AKIM DEVRE YÖNTEM VE TEOREMLER İLE ÇÖZÜMÜ

ÇOK BOYUTLU EŞLEŞMİŞ ÇİFTLER ARASINDAKİ FARKIN SINAMASINDA PERMÜTASYON YÖNTEMİNİN BİR DEĞERLENDİRMESİ. Burak ŞİMŞEK YÜKSEK LİSANS TEZİ İSTATİSTİK

YAŞAM ÇÖZÜMLEMESİNDE ZAYIFLIK MODELLERİ FRAILTY MODELS IN SURVIVAL ANALYSIS

( ) 3.1 Özet ve Motivasyon. v = G v v Operasyonel Amplifikatör (Op-Amp) Deneyin Amacı. deney 3

TEKNOLOJĐK ARAŞTIRMALAR

Türkiye deki Đşsizlik Oranının Bulanık Doğrusal Regresyon Analiziyle Tahmini

Lojistik Regresyonlarda Değişken Seçimi

Basel II Geçiş Süreci Sıkça Sorulan Sorular

Bulanık Mantık ile Hesaplanan Geoid Yüksekliğine Nokta Yüksekliklerinin Etkisi

DOĞRUSAL HEDEF PROGRAMLAMA İLE BÜTÇELEME. Hazırlayan: Ozan Kocadağlı Danışman: Prof. Dr. Nalan Cinemre

FARKLI REGRESYON YÖNTEMLERİ İLE BETA KATSAYISI ANALİZİ

REGRESYON ANALİZİ BÖLÜM 1-2

YAYILI YÜK İLE YÜKLENMİŞ YAPI KİRİŞLERİNDE GÖÇME YÜKÜ HESABI. Perihan (Karakulak) EFE

Standart Model (SM) Lagrange Yoğunluğu. u, d, c, s, t, b. e,, Şimdilik nötrinoları kütlesiz Kabul edeceğiz. Kuark çiftlerini gösterelim.

ADJUSTED DURBIN RANK TEST FOR SENSITIVITY ANALYSIS IN BALANCED INCOMPLETE BLOCK DESIGN

KENTSEL ALANDA ET TALEP ANALİZİ: BATI AKDENİZ BÖLGESİ ÖRNEĞİ. Dr. Ali Rıza AKTAŞ 1 Dr. Selim Adem HATIRLI 2

4.5. SOĞUTMA KULELERİNİN BOYUTLANDIRILMASI İÇİN BİR ANALIZ

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Sistemde kullanılan baralar, klasik anlamda üç ana grupta toplanabilir :

FAKTÖR A ALĐZ SKORLARI KULLA ILARAK KARAYAKA KUZULARI DA CA LI AĞIRLIK TAHMĐ Đ

K-Ortalamalar Yöntemi ile Yıllık Yağışların Sınıflandırılması ve Homojen Bölgelerin Belirlenmesi *

Calculating the Index of Refraction of Air

OLASILIĞA GİRİŞ. Biyoistatistik (Ders 7: Olasılık) OLASILIK, TIP ve GÜNLÜK YAŞAMDA KULLANIMI

İKİ DEĞİŞKENLİ BASİT DOĞRUSAL REGRESYON MODELİ

DENEY 4: SERİ VE PARALEL DEVRELER,VOLTAJ VE AKIM BÖLÜCÜ KURALLARI, KIRCHOFF KANUNLARI

EKONOMETRİYE GİRİŞ II ÖDEV 4 ÇÖZÜM

Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Y.2008, C.13, S.1 s

Sayfa 1. GİRİŞ TEMEL KAVRAMLAR... 2

GM-220 MÜH. ÇALIŞ. İSTATİSTİKSEL. Frekans Dağılımı Oluşturma Adımları VERİLERİN SUNUMU. Verilerin Özetlenmesi ve Grafikle Gösterilmesi

ADIYAMAN ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MATEMATİK ANABİLİM DALI YÜKSEK LİSANS TEZİ SOFT KÜMELER VE BAZI SOFT CEBİRSEL YAPILAR.

Rasgele Değişken Üretme Teknikleri

2006 DÜNYA KUPASI FUTBOL TAKIMLARININ STOKASTİK SINIR ANALİZİ İLE PERFORMANS DEĞERLENDİRMESİ. Serdar YARLIKAŞ YÜKSEK LİSANS TEZİ İSTATİSTİK

Hisse Senedi Fiyatları ve Fiyat/Kazanç Oranı Đlişkisi: Panel Verilerle Sektörel Bir Analiz *

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DOKTORA TEZİ SWITCHING REGRESYON DA BULANIK SİNİR AĞLARI YAKLAŞIMI İLE PARAMETRE TAHMİNİ

ATATÜRK ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ İŞLETME ANA BİLİM DALI. Serhat BURMAOĞLU

Sosyal Bilimlerde Yanlı Regresyon Tahmin Edicilerinin Kullanılması

VEKTÖRLER VE VEKTÖREL IŞLEMLER

ASİMETRİK VE SİMETRİK MARJİNAL DAGILIMLARDA ÇOK

ELM201 ELEKTRONİK-I DERSİ LABORATUAR FÖYÜ

BANKACILIKTA ETKİNLİK VE SERMAYE YAPISININ BANKALARIN ETKİNLİĞİNE ETKİSİ

TÜKETİCİ TATMİNİ VERİLERİNİN ANALİZİ: YAPAY SİNİR AĞLARI ve REGRESYON ANALİZİ KARŞILAŞTIRMASI

Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 25, Sayı: 1,

Üç Boyutlu Yapı-Zemin Etkileşimi Problemlerinin Kuadratik Sonlu Elemanlar ve Sonsuz Elemanlar Kullanılarak Çözümü

2005 Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi Sayı:16, s31-46

Hasar sıklıkları için sıfır yığılmalı kesikli modeller

Transkript:

REGRESYONDA ETKİLİ GÖZLEMLERİ BELİRLEME YÖNTEMLERİ VE KARŞILAŞTIRMALARI Can DARICA YÜKSEK LİSANS TEZİ İSTATİSTİK GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ŞUBAT 014 ANKARA

Can DARICA tarafından hazırlanan REGRESYONDA ETKİLİ GÖZLEMLERİ BELİRLEME YÖNTEMLERİ VE KARŞILAŞTIRMALARI adlı bu tezn Yüksek Lsans tez olarak uygun olduğunu onaylarım. Prof. Dr. Hamza GAMGAM Tez Danışmanı, İstatstk Anablm Dalı. Bu çalışma, jürmz tarafından oy brlğ le İstatstk Anablm Dalında Yüksek Lsans tez olarak kabul edlmştr. Prof. Dr. M. Akf BAKIR İstatstk Anablm Dalı, Gaz Ünverstes. Prof. Dr. Hamza GAMGAM İstatstk Anablm Dalı, Gaz Ünverstes. Yrd. Doç. Dr. Rukye DAĞALP İstatstk Anablm Dalı, Ankara Ünverstes. Tez Savunma Tarh: 13/0/014 Bu tez le G.Ü. Fen Blmler Ensttüsü Yönetm Kurulu Yüksek Lsans derecesn onamıştır. Prof. Dr. Şeref SAĞIROĞLU Fen Blmler Ensttüsü Müdürü.

TEZ BİLDİRİMİ Tez çndek bütün blglern etk davranış ve akademk kurallar çerçevesnde elde edlerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana at olmayan her türlü fade ve blgnn kaynağına eksksz atıf yapıldığını bldrrm. Can DARICA

v REGRESYONDA ETKİLİ GÖZLEMLERİ BELİRLEME YÖNTEMLERİ VE KARŞILAŞTIRMALARI (Yüksek Lsans Tez) Can DARICA GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Şubat 014 ÖZET Regresyon analznde etkl gözlem ve/veya gözlemler, EKK yöntem le hesaplanan tahmn değerlernn değşmesnde öneml derecede etkl olablr. Tahmn değerler üzerndek bu etkler modeln açıklanablrlğn azalttığı çn, verde yer alan etkl gözlem ve/veya gözlemlern tespt edlmes önem arz etmektedr. Bu çalışmada etkl gözlem ve/veya gözlemlern tesptnde kullanılan Cook Uzaklığı, DFFITS, S ve M tanı statstkler ncelenmştr. Bu tanı statstkler br etkl gözlem veya k etkl gözlem çeren verde, bu gözlem ve gözlem grubunu etkl gözlem olarak saptama oranı bakımından karşılaştırılmıştır. Blm Kodu : 05.1.066 Anahtar Kelmeler : Etkl gözlem, maskeleme, yanılgıya düşürme Sayfa Aded : 55 Tez Yönetcs : Prof. Dr. Hamza GAMGAM

v METHODS USED FOR IDENTIFYING THE INFLUENTIAL OBSERVATIONS IN REGRESSION ANALYSIS AND THEIR COMPARISON (M. Sc. Thess) Can DARICA GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES February 014 ABSTRACT Influental observaton and/or observatons n regresson analyss may have sgnfcant mpact on the alteraton of the MLS (Method of Least Squares) estmates. Snce these effects upon the estmates reduce the accuracy and effcency of the model, detectng the nfluental observaton and/or observatons n a dataset matters to a great extent. In ths study Cook Dstance, DFFITS, S and M dagnostc statstcs have been revewed. The mentoned dentfcaton statstcs have been compared wth regards to ther extent to whch they can assgn nfluental observaton and/or observatons n a dataset consstng of one or two nfluental observatons. Scence Code : 05.1.066 Key Words : Influental observaton, maskng, swampng Page Number : 55 Supervsor : Prof. Dr. Hamza GAMGAM

v TEŞEKKÜRLER Çalışmalarım sürecnde; değerl yardım ve katkılarıyla ben yönlendren, kıymetl tecrübelernden faydalandığım hocam Prof. Dr. Sayın Hamza GAMGAM a, karşılaştığım güçlüklern aşılmasında yardımcı olan Araştırma Görevls Sayın Irmak ACARLAR a, ben yüreklendren, hayatımın her dönemnde özver le destek olan aleme teşekkürü br borç blrm.

v İÇİNDEKİLER Sayfa ÖZET... v ABSTRACT... v TEŞEKKÜRLER... v İÇİNDEKİLER... v ÇİZELGELERİN LİSTESİ... x ŞEKİLLERİN LİSTESİ... x SİMGELER VE KISALTMALAR... x 1. GİRİŞ... 1. TEMEL KAVRAMLAR... 5.1. Çoklu Doğrusal Regresyon Model... 5.. Aykırı Gözlem ve Etkl Gözlem... 8.3. Maskeleme (Maskng) ve Yanılgıya Düşürme (Swampng)... 11 3. ETKİLİ GÖZLEMLERİN BELİRLENMESİNDE KULLANILAN KLASİK YÖNTEMLER... 14 3.1. Şapka Matrs (Hat Matrx)... 14 3. Studentlaştırılmış Artıklar... 16 3..1 Dahl studentlaştırılmış artıklar... 17 3.. Harc studentlaştırılmış artıklar (RSTUDENT)... 17 3.3 DFBETAS İstatstğ... 19 3.4 Uyumlar Arasındak Fark İstatstğ (DFFITS)... 0 3.5 Cook Uzaklığı İstatstğ... 3.6 S İstatstğ... 4

v Sayfa 4. NURUNNABI, IMON VE NASSER TARAFINDAN ÖNERİLEN M İSTATİSTİĞİ... 8 5. UYGULAMA... 3 5.1. Brownlee nn Stack Loss Vers... 3 5. Gesell Adaptve Score Vers... 37 6. SİMÜLASYON ÇALIŞMASI... 41 7. SONUÇ VE ÖNERİLER... 50 KAYNAKLAR... 53 ÖZGEÇMİŞ... 55

x ÇİZELGELERİN LİSTESİ Çzelge Sayfa Çzelge 5.1. Brownlee nn Stack Loss Vers... 33 Çzelge 5.. Brownlee nn Stack Loss Vers Sonuçları... 34 Çzelge 5.3. Gesell Adaptve Score Vers... 37 Çzelge 5.4. Gesell Adaptve Score Versne at test sonuçları... 39 Çzelge 6.1. k ken Y bakımından br etkl gözlem çeren verde etkl gözlem saptanma oranları... 43 Çzelge 6.. k 3 ken Y bakımından br etkl gözlem çeren verde etkl gözlem saptanma oranları... 43 Çzelge 6.3. k 4 ken Y bakımından br etkl gözlem çeren verde etkl gözlem saptanma oranları... 44 Çzelge 6.4. k ken Y bakımından k etkl gözlem çeren verde etkl gözlemlern saptanma oranları... 46 Çzelge 6.5. k 3 ken Y bakımından k etkl gözlem çeren verde etkl gözlemlern saptanma oranları... 47 Çzelge 6.6. k 4 ken Y bakımından k etkl gözlem çeren verde etkl gözlemlern saptanma oranları... 47 Çzelge 6.7. n 0 ve p 3 ken Y bakımından k etkl gözlem çeren verde etkl gözlemlern saptama oranları... 49

x ŞEKİLLERİN LİSTESİ Şekl Sayfa Şekl.1. Y bakımından dğerlernden farklı br değere sahp olan aykırı gözlem... 9 Şekl.. X bakımından farklılığa neden olan yüksek kaldıraç noktaları... 10 Şekl.3. İy Kaldıraç Noktası... 11 Şekl.4. Maskeleme ve Yanılgıya Düşürme Etks... 1 Şekl 3.1. Tek gözlem slme yöntemyle hesaplanan tahmn değerlerne lşkn grafk... 3 Şekl 5.1. (a) Cook Uzaklığı değerlerne at grafk. (b) DFFITS değerlerne at grafk. (c) S statstğ değerlerne at grafk. (d) M statstğ değerlerne at grafk.... 36 Şekl 5.. Gesell Adaptve Score versne at serpme dyagram... 38 Şekl 5.3. (a) Cook Uzaklığı değerlerne at grafk. (b) DFFITS statstğ değerlerne at grafk. (c) S statstğ değerlerne at grafk. (d) M statstğ değerlerne at grafk.... 40

x SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı smge ve kısaltmalar, açıklamaları le brlkte aşağıda sunulmuştur. Smgeler Açıklama Örnek hacm Parametre sayısı Bağımsız değşken sayısı Şapka (Hat) matrs Şapka matrsnn. köşegen elemanı Dahl studentlaştırılmış artıklar Harc studentlaştırılmış artıklar Verden. gözlemn slnmesyle elde edlen X matrs Verden. gözlemn slnmesyle elde edlen Y vektörü Verden. gözlemn slnmesyle elde edlen ˆ vektörü Kısaltmalar Açıklama EKK DFFITS CD En küçük kareler Uyumlar arasındak fark Cook Uzaklığı

1 1. GİRİŞ Regresyon analznde gözlemlern br veya brkaçı dğer gözlemlerden öneml derecede farklılık göstereblr. Böyle gözlemlere aykırı gözlem (outlers) denlmektedr. Aykırı gözlemler brer aşırı gözlemdr. Dğer gözlemlere göre mutlak değerce ortalamadan üç veya dört standart sapma farklılık gösteren artıklar, potansyel aykırı gözlemdr [Montgomery ve ark., 006]. Verden br veya brden fazla aykırı gözlemn çıkarılması, tahmnlerde öneml derecede değşklklere neden oluyorsa, böyle gözlemlere etkl gözlem denr. Etkl gözlemler regresyon doğrusunun eğmn öneml derecede değştrr. En küçük kareler tahmn edcs farklı davranan gözlemlere karşı çok hassas olduğundan, verde yer alan tüm gözlemlern ncelenmes önem teşkl etmektedr. Genelleme yapılacak olunursa; her etkl gözlemn aykırı gözlem olduğu, ancak her aykırı gözlemn etkl gözlem olmadığı söyleneblr. Aykırı ve etkl gözlemlern tesptnde kullanılan lk yöntem serpme dyagramıdır. İk değşken arasındak lşky tanımlamakta kullanılan serpme dyagramı aykırı ve etkl gözlemlern belrlenmesnde de kullanılmaktadır. Serpme dyagramının yatay eksen bağımsız değşken, dkey eksen se bağımlı değşken göstermektedr. Serpme dyagramı br bağımsız değşkenl regresyon modellernde aykırı gözlemler lk aşamada belrlemede kolaylık sağlamaktadır. Fakat bağımsız değşken sayısı k veya kden fazla olduğunda serpme dyagramında boyut sayısı artacağından aykırı ve etkl gözlemlern belrlenmes oldukça zorlaşmaktadır. Bu yüzden çoklu regresyonda aykırı ve etkl gözlemlern belrlenmesnde serpme dyagramının kullanılması kullanışlı değldr. Verye br regresyon doğrusu uydurulmak stendğnde akla lk gelen yöntem bast olmasından dolayı en küçük kareler (EKK) yöntemdr. Fakat br etkl gözlem varlığında, bu gözleme at artık değer mutlak değer olarak çok büyük olacağından bu durumun tahmnler ve sonrak analzler üzernde öneml derecede etks olmaktadır. Bu yüzden etkl gözlemlern tespt büyük önem taşımaktadır. Etkl gözlem verden slneblr veya ağırlığı azaltılarak etk dereces düşürüleblr. Ancak,

gözlem sayısının yeterl olmaması durumunda etkl gözlemlern verden slnmes çoklu doğrusal bağlantı gb başka sorunlara yol açablmektedr. Etkl gözlemlern tesptne yönelk yapılan çalışmaların çoğu gözlemler teker teker slme ve analz sonucunda bunların etklern ölçme temel üzerne gelştrlmştr. Fakat yapılan çalışmalar tek gözlem slme teknğnn maskeleme (maskng) ve yanılgıya düşürme (swampng) problemlerne neden olduğunu göstermştr. Lteratürde etkl gözlemler tespt etmekte kullanılan brçok yöntem vardır. Yapılan lteratür taraması sonucunda kaldıraç değerler (şapka matrsnn köşegen elemanları), Studentlaştırılmış Artıklar, Cook Uzaklığı statstğ ve Uyumlar Arasındak Fark (DFFITS) statstğ gb tek gözlem slmeye dayalı yöntemler çok yaygın kullanılmaktadır. Bu yöntemlern yanında grafk yöntem ve etk matrs de etkl gözlemler tespt etmekte kullanılmaktadır. Tek gözlem slme yöntemnn genel fkr etkl gözlem slmek ve bu slme şlemnn sonuçlar üzerndek etksn ncelemektr. Cook Uzaklığı statstğ, en küçük kareler yöntem le regresyon analz yapılırken ver noktasının etkllğn tahmn etmekte kullanılmaktadır. Her br gözlemn tahmn sonuçları üzerndek etksne bakılmaktadır. Yan, her br gözlemn regresyon modeln ne kadar etkledğ ncelenmektedr. Verdek. gözleme at bağımlı değşken değer y ve bu bağımlı değşken değernn tahmn y ˆ olmak üzere; e y yˆ olarak tanımlanan, blnen e artıklarına dayalı olan ve aykırı gözlemlern saptanmasında kullanılan tanı statstklernden br Studentlaştırılmış Artıklar dır [Acarlar, 009]. Studentlaştırılmış artık termler aykırı gözlemlern belrlenmesnn yanı sıra etkl gözlemlern belrlenmesnde de kullanılmaktadır. Dahl ve harc olarak kye ayrılan Studentlaştırılmış artık termler Margoln (1977) ve Davd (1981) tarafından tartışılmıştır [Acarlar, 009]. Etkl gözlemlern saptanmasında kullanılan br dğer yöntem se Hoagln ve Welsch (1978) tarafından önerlen Şapka (Hat) matrsdr. Regresyon analznde bağımsız

3 değşken değerlernn modeln üzerndek etklern blmek çok önemldr. Etkl X değerler set aynı zamanda yüksek kaldıraç noktaları olarak da blnmektedr [Imon, 005]. Şapka Matrs H le gösterlr ve köşegen elemanları h le fade edlr. p parametre sayısı ve n de gözlem sayısı olmak üzere, h değer p n değernden büyük se; nc gözlemn (X ), X n merkeznden uzakta olduğunu fade eder ve nc gözleme yüksek kaldıraç noktası denr. Etkl gözlemlern tesptnde kullanılan br dğer yöntem se Belsley, Kuh ve Welsch (1980) tarafından önerlen Uyumlar Arasındak Fark (DFFITS) yöntemdr. DFFITS statstğ, regresyonda gözlemn ne kadar etkl olduğunu gösteren tanısal br yöntemdr. DFFITS statstğ. gözlem slerek parametre tahmnne bakmak yerne. gözlemn slnmesnn y değerlernn tahmn olan ŷ değerler üzerndek etksn ölçmektedr. DFFITS statstğ, Cook Uzaklığı statstğne göre hakkında daha çok blg verc olduğundan, Cook Uzaklığı statstğ yerne DFFITS statstğnn kullanılması önerlmştr [Welsch, 198]. Yukarıda adı geçen yöntemler tek gözlem slme yöntemne dayanılarak gelştrlmştr. Tek gözlem slme yöntemler maskeleme (maskng) ve/veya yanılgıya düşürme (swampng) problemlerne neden olmaktadır. Bu yüzden maskeleme ve/veya yanılgıya düşürme durumlarında da etkl br şeklde çalışablen robust (sağlam) yöntemler gelştrlmştr. Maskeleme problem le karşılaşıldığında etkl gözlemler belrlemede kullanılan sağlam yöntemlerden br medyan kareler regresyonudur. En küçük medyan kareler regresyonu verdek bozulmaya %50 oranında dayanablmektedr. En küçük medyan kareler regresyonu etkl gözlemlere karşı çok dayanıklı olmasına rağmen kötü özellklere sahptr [Atknson,1986]. Rousseeuw (1984) bu yöntem, daha verml sağlam yöntemler çn br başlangıç olarak kullanmıştır [Atknson, 1986]. Br dğer sağlam yöntem se Had (199a, 1994) ve Had ve Smonoff (1993) un yöntemlerne dayanan Uyarlanablr, Parçalı, Hesaplama Yönünden Etkn Aykırı Gözlem Belrleycs (BACON) yöntemdr [Satman, 005].

4 Pena (005), Cook Uzaklığı statstğn gelştrerek etk analz çn yen br yöntem olan S statstğn tanıtmıştır. S statstğnn genel fkr, br noktanın slnmesnn parametre tahmnler veya olablrlk fonksyonundak etksne bakmak yerne, örnekte yer alan her br gözlemn dğer gözlemler tarafından nasıl etklendğn ncelemektr. Yan örnekte etkl olan veya olmayan br gözlem slndğnde, gerde kalan gözlemler çn yenden tahmn hesaplanmaktadır. Ayrıca Pena (005), S statstğnn yüksek boyutlu ver setlernde oldukça etkl olduğunu söylemektedr. Nurunnab, Imon ve Nasser (011) tarafından önerlen M statstğ, etkl gözlemler belrlemek çn Pena nın (005) fkr genşletlerek grup slme yöntemyle lgl ortaya atılan yen br statstktr. Bu yöntem, etkl gözlemler yukarıda adı geçen yöntemlere göre daha hassas tespt etmektedr. Bu yöntem k aşamadan oluşmaktadır. Brnc aşamada, etkl gözlemler tespt edlmek stenmektedr ve bunun çn grafksel gösterm ve/veya yukarıda adı geçen etkl gözlem tanımlama yöntemler kullanılmıştır. İknc aşamada se gözlemlern gerçekten etkl olup olmadığı ncelenmştr. Çalışmanın knc bölümünde konu le lgl temel kavramlar açıklanmıştır. Üçüncü bölümde etkl gözlemler belrlemekte kullanılan klask yöntemlerden bahsedlmştr. Dördüncü bölümde Nurunnab, Imon ve Nasser (011) tarafından önerlen M statstğ tanıtılmıştır. Beşnc bölümde Cook Uzaklığı statstğ, DFFITS statstğ, S statstğ ve M statstğnn ver üzernde uygulaması yapılmıştır. Altıncı bölümde üç smülasyon çalışmasına yer verlmştr. İlk smülasyon çalışmasında Cook Uzaklığı, S ve M statstkler karşılaştırılmıştır. İknc ve üçüncü smülasyon çalışmasında se S ve M statstkler karşılaştırılmıştır. Yednc bölümde sonuç ve önerlere yer verlmştr.

5. TEMEL KAVRAMLAR Bu bölümde çoklu doğrusal regresyon model kısaca tanıtılmıştır ve aykırı gözlem, etkl gözlem, maskeleme ve yanılgıya düşürme kavramları açıklanmıştır..1. Çoklu Doğrusal Regresyon Model Regresyon analz değşkenler arasındak lşknn matematksel br fonksyon le fade edlmes olarak tanımlanablr [Gündoğan, 005]. Regresyon analznde amaç, gözlemlenen olaylardan elde edlen verye uygun br modeln uydurulmasıdır. Verye uydurulan model le bağımsız değşkenlern farklı değerlerne karşılık, bağımlı değşken değerler tahmn edlr ve bağımsız değşkenlern etkl olup olmadığı araştırılır. Gözlem sayısı n, parametre sayısı p, n 1 boyutlu bağımlı değşken vektörü Y, n p boyutlu ve rankı p olan bağımsız değşkenler matrs X, p 1 boyutlu parametre vektörü ve n 1 boyutlu ortalaması 0 ve varyansı vektörü olmak üzere, çoklu doğrusal regresyon model olan hata Y X (.1) bçmnde yazılır. Bağımsız değşken sayısı k ve k1 p olmak üzere, buradak Y, ve vektörler le X matrs Y Y1 Y, Yn X 1 1 1 X X X 11 k1 1 k 1n X X X kn, 0 1 k, T 1 n bçmnde tanımlanır. parametre vektörüne at EKK tahmn edcs se

6 X X 1 ˆ T T X Y (.) le elde edlr. Çoklu doğrusal regresyon modelnn parametreler doğrusaldır. Br modeln parametreler veya değşkenler açısından doğrusal olması modeldek her br parametrenn üssünün br olması ve parametrelern üs olarak yer almaması olarak açıklanablr. Ayrıca çoklu doğrusal regresyon modelnde bağımsız değşkenlern değerler ynelenen örneklerde değşmez. Dolayısı le regresyon analznn bağımsız değşkene bağlı koşullu regresyon analz olduğu da söyleneblr [Vural, 007]. Çoklu doğrusal regresyon modelnde EKK tahmnlernn yapılablmes çn aşağıdak dört varsayımın sağlanması gerekr. 1. Hata termler ortalaması sıfır ve varyansları olan brer rastgele değşkenlerdr.. Hata termler arasında otokorelasyon yoktur. Kov, 0, j (.3) j 3. Hata termlernn, yan lern, varyansları aynıdır. Buna homojen varyans varsayımı denr. 1. ve 3. varsayımlar N 0, (.4) olarak fade edleblr. 4. Bağımsız değşken le hata term brbrlernden bağımsızdır.

7, Cov X E E X E X 0 X E X E X E X E X E E (.5) Ayrıca statstksel çıkarım şlemler, yan hpotez testler ve güven aralıkları çn de aşağıdak varsayımın sağlanması gerekmektedr. 5. Hata termlernn, yan rastgele değşkenlernn, dağılımları normaldr. Bu varsayım N 0, (.6) bçmnde fade edlr. Çoklu doğrusal regresyon modelnde parametre vektörüne at ˆ parametre tahmn vektörünü elde ederken gözlem sayısı n, parametre sayısı p den küçük olmamalıdır. n p olduğunda çoklu bağlantı sorunu ortaya çıkar ve parametreler tahmn edlemez. Ayrıca bağımsız değşkenler arasında yüksek doğrusal lşk olmamalıdır. Bağımsız değşkenler arasında yüksek lşknn bulunması parametre tahmnlernde sorunlara yol açar. EKK yöntem le elde edlen ˆ statstkler kullanılarak bağımlı değşken Y nn tahmn olan ˆ Y lar Ŷ Xˆ (.7) formülü le elde edlr. Artık vektörü olan e se

8 e Y Yˆ (.8) le verlr. Hata termlerne lşkn yansız br tahmn edcs se ˆ T e e n p (.9) şeklndedr... Aykırı Gözlem ve Etkl Gözlem Verdek bağımlı değşken değerlernden, bu bağımlı değşkene at tahmn değerlernn çıkarılmasıyla elde edlen değere artık değer denlmektedr. Mutlak değerce dğer gözlemlerden oldukça büyük artık değere sahp gözlemlere de aykırı gözlem denlmektedr. Aykırı gözlemler modeln yanlış kurulmasından, örneklemede yapılan hatalardan ve yapılan gözlemlern yanlış kaydedlmesnden kaynaklanablr. Aykırı gözlemlern varlığının tespt edlmes, verde br düzeltmeye gerek olup olmadığının belrlenmes ve bu sonuca göre verye uygun modeln uydurulması açısından oldukça önemldr. Aykırı gözlemler artıkların ncelenmes le kolayca tespt edleblr ve bu regresyon model kurulmadan önce de yapılablr. Önerlen herhang br regresyon model üzernde bu gözlemlern güçlü br etks vardır. Artıkların ncelenmes le tespt edlen aykırı gözlemlerden bazıları veya heps regresyon doğrusunun eğmn değştreblmektedr. Regresyon doğrusunun eğmn öneml derecede değştreblen gözlemlere etkl gözlem denlmektedr. Etkl gözlemler, parametre tahmnlernn öneml derecede değşmesne ve parametre tahmnlerne at varyans değerlern arttırarak regresyon analznde brçok soruna neden olmaktadır. Belsley (1980) etkl gözlem; tek başına ya da dğer br kaç gözlemle, çeştl tahmnlern hesaplanan değerlern dğer gözlemlere göre öneml derecede etk yapan gözlem olarak tanımlamıştır. Meloun ve Mltky (001) etkl gözlemler konumlarına göre;

9 ) Y bakımından dğerlernden farklı br değere sahp olan aykırı gözlem, ) X bakımından farklılığın neden olduğu kaldıraç noktaları, ) Hem bağımlı hem de bağımsız değşken bakımından dğer gözlemlerden farklı uzaklıktak gözlemler olarak sınıflandırmıştır. Bu üç durum aşağıdak şekller le açıklanmıştır. Şekl.1. Y bakımından dğerlernden farklı br değere sahp olan aykırı gözlem Şekl 1 de sol tarafta,,...,, x y x y noktalarından oluşan 5 gözleml br serpme 1 1 5 5 dyagramı gösterlmektedr. EKK tahmn sonucunda elde edlen regresyon doğrusu ŷ ˆ ˆ X verye çok y uyum sağlamıştır. Ancak ölçüm hatası veya ver 0 1 grşnde yapılan br yanlışlık sonucu 4 numaralı gözleme at y 4 değernn değştğn düşünelm. Şekl 1 de sağ tarafta yer alan serpme dyagramı, 4 numaralı gözleme at y 4 değernn yukarıya doğru kaydığı ve esk yerne göre oldukça uzakta olduğu durumu göstermektedr. Bu nokta y bakımından aykırı gözlem olarak adlandırılır ve EKK le tahmn edlen regresyon doğrusu üzernde öneml derecede etks vardır.

10 Şekl.. X bakımından farklılığın neden olduğu yüksek kaldıraç noktaları Şekl de sol tarafta,,...,, x y x y noktalarından oluşan 5 gözleml br serpme 1 1 5 5 dyagramı gösterlmektedr. Bu 5 nokta, EKK tahmn sonucunda elde edlen regresyon doğrusuna çok y uyum sağlamıştır. Şekl nn sağ tarafı, 1 numaralı gözleme at x 1 değernn yanlış grldğ zamank durumunu göstermektedr. Bu yanlış grş sonucunda 1 numaralı gözleme at x 1 değer, X bakımından aykırı gözlem olarak adlandırılmaktadır ve bu gözlemn regresyon doğrusunu kendsne doğru çektğ açıkça görülmektedr. Şekl nn sağ tarafında gösterlen x y noktasına yüksek kaldıraç noktası denlmektedr. 1, 1 Dğer taraftan br veya brden fazla gözlem hem bağımlı hem de bağımsız değşken bakımından dğer gözlemlerden uzakta yer alablrler. Bu tür gözlemler hem aykırı gözlem hem de yüksek kaldıraç noktalarının brlkte kombnasyonu olan gözlemlerdr. Şekl 3 te gösterlen nokta hem aykırı gözlem hem de yüksek kaldıraç noktasıdır. Fakat bu gözlem, dğerlernden uzakta olmasına rağmen, tahmn edlen regresyon doğrusuna çok yakındır ve regresyon doğrusunun eğmn öneml derecede değştrmeyecek br konuma sahptr. Bu yüzden böyle gözlemlere y kaldıraç noktası denlmektedr. İy kaldıraç noktaları verdek gözlem kümesnden oldukça

11 uzakta yer almaktadır. Böyle gözlemlere ayrıca sapan değer de (outlyng) denlmektedr. Şekl.3. İy Kaldıraç Noktası.3. Maskeleme (Maskng) ve Yanılgıya Düşürme (Swampng) Tek gözlem slmeye dayalı yöntemlern en büyük sorunu maskeleme (maskng) ve yanılgıya düşürme (swampng) problemlerne neden olmalarıdır. Bu yüzden öncek bölümde adı geçen yöntemler etkl ve aykırı gözlemler belrlemekte başarısız olmaktadır. Aykırı gözlemler olduğunda örnekten hesaplanan örnek ortalaması aykırı gözlemlere yaklaşacağından, aykırı gözlemlern ortalamaya olan uzaklıkları küçülmektedr. Bu tür gözlemlern normal gözlem gb görünmes durumuna maskeleme denr. Aykırı gözlemler örnek ortalamasını kendlerne yaklaştırdığından, verdek dğer gözlemlern de ortalamaya olan uzaklıkları artmaktadır. Bu yüzden verde aykırı olmayan gözlemlern de aykırı gözlem olarak tespt edlmes durumu da yanılgıya düşürme olarak adlandırılır.

1 Şekl.4. Maskeleme ve Yanılgıya Düşürme Etks Bazı durumlarda tek başına etkl olmayan br gözlem, dğer gözlemlern de bulunduğu br grupta oldukça etkl olablr. Şekl 4 te 7 ve 8 numaralı gözlemler EKK le tahmn edlen regresyon doğrusunu kendlerne doğru çekmşlerdr. Bundan dolayı modele çok y uyan 1 ve 6 numaralı gözlemlere at artık değerler büyümüştür. 7 ve 8 numaralı gözlemler normalde etkl gözlem olmalarına rağmen regresyon doğrusunun eğmn değştrdğnden, bu gözlemlere at artık değerler küçülmüştür. Yan bu k gözlem brbrlern maskelemşlerdr. Gerçekte etkl gözlem olmalarına rağmen, dğer gözlemler tarafından etkl olmayan gözlem olarak tespt edlmes durumuna maskeleme denr. Regresyon doğrusunun eğmnn değşmesnden dolayı artık değerler büyüyen 1 ve 6 numaralı gözlemler de, etkl gözlem olarak gözükmektedr. Gerçekte etkl olmayan gözlemlern, dğer gözlemler tarafından etkl gözlem olarak tespt edlmes durumuna da yanılgıya düşürme denr. Had ve Smonoff (1993) maskeleme ve yanılgıya düşürmey; genellkle yakın alt kümelern varlığından dolayı merkezden uzak alt kümelern saptanamaması durumunu maskeleme, gözlemlere at uzak alt kümelern varlığından dolayı y gözlemlern hatalı br şeklde tanımlanması durumunu da yanılgıya düşürme olarak tanımlamıştır.

13 Imon (005) se maskeleme ve yanılgıya düşürmey; etkl gözlemlern etkl olmayan gözlemler olarak etklenmesn maskeleme, etkl olmayan gözlemlern etkl gözlem olarak görünür kılınması etksn de yanılgıya düşürme olarak tanımlamıştır.

14 3. ETKİLİ GÖZLEMLERİN BELİRLENMESİNDE KULLANILAN KLASİK YÖNTEMLER Bu bölümde etkl gözlemlern belrlenmesnde kullanılan Şapka Matrs, Studentlaştırılmış Artıklar, DFBETAS statstğ, DFFITS statstğ, Cook Uzaklığı statstğ ve Pena nın (005) S statstğ hakkında blg verlmştr. 3.1. Şapka Matrs (Hat Matrx) EKK yöntemyle verye uydurulan regresyon modelnde her br gözlemn, parametre tahmnler ve y ˆ tahmn değerler üzernde ne kadar etkl olduğunu belrlemek oldukça önemldr. Gözlenen şapka matrs le elde edleblr. y değerler le uyumlu y ˆ değerler arasındak lşk Eştlk (.7) de ˆ yerne T X X 1 T X Y konulursa, Yˆ X ˆ T 1 X X X HY T X Y (3.1) elde edlr. Buradak n n boyutlu H matrs, şapka matrs olarak adlandırılır. Açık yazılacak olunursa H matrs T 1 H X X X X T (3.) şeklndedr. Ayrıca ŷ ve artık term e çn kovaryans matrsler de ˆ H 1h V y V e I H V e (3.3)

15 şeklndedr. Bağımsız değşken sayısı k olmak üzere, k olduğunda etkl ve aykırı gözlemlern tesptnde serpme dyagramının kullanışlı olmadığına brnc bölümde değnlmşt. Bundan dolayı k olduğunda etkl gözlemlern tesptnde şapka matrs kullanılmaktadır. H matrsnn köşegen elemanları h le gösterlr ve kaldıraç değer olarak adlandırılır. Hoagln ve Welsch (1978),. gözleme karşılık gelen kaldıraç değerlernn hesaplanması çn T 1 h x X X x (3.4) T formülünü önermştr [Hoagln ve Welsch, 1978].. gözlemn büyük h ye sahp olması Y ˆ yı belrlemede öneml br kaldıraç görev yapar. Bunun k neden vardır. 1. Y ˆ lar Y lern doğrusal kombnasyonudur. Ŷ HY (3.5) h değer, Y ˆ nın belrlenmesnde Y nn ağırlığını tanımlamaktadır. Büyük h değer, Y ˆ nn belrlenmesnde Y nn daha büyük rol oynadığını gösterr [Cook ve Wesberg, 198].. h değerler büyüdükçe V e değerler küçülür. 1 h V e (3.6) h değer büyüdükçe Y ˆ değerler Y ye yaklaşacaktır [Cook ve Wesberg, 198].

16 h 1, Ve 0 Y ˆ Y (3.7) Şapka Matrs, maskeleme ve yanılgıya düşürme durumunda, aykırı ve etkl gözlemler belrlemekte başarısız olmaktadır. Bu yüzden maskeleme ve yanılgıya düşürme problemlernde bu yöntem kullanışlı değldr. Br noktanın yüksek kaldıraç noktası olup olmadığına dar brçok karar kuralı bulunmaktadır. Parametre sayısı p olmak üzere, Hoagln ve Welsch (1978) krtk değer olarak p n sayısını önermştr. Eğer h değer bu krtk değerden büyük se, bu değere karşılık gelen gözleme yüksek kaldıraç noktası denlmektedr. Vellemen ve Welsch (1981) se bu krtk değer 3p n olarak belrtmştr [Habshah ve ark., 009]. Huber (1981) se h nn olası değerler çn 0h 1 olmak üzere 3 aralık tanımlamıştır. Buna göre h 0. se güvenlr, 0. h 0.5 se rskl ve 0.5 h se kaçınılması gerektğn belrtmştr [Habshah ve ark., 009]. 3. Studentlaştırılmış Artıklar Aykırı gözlemlern tesptnde kullanılan br başka yöntem se Studentlaştırılmış Artıklardır. Her br artığın varyansı ve h nn br fonksyonu olduğundan, bu artıklar ölçeğe bağımlı br dağılıma sahptr. Brçok tanı prosedürü çn bu ncelklern ksne de bağlı olmayan, artıkların Studentlaştırılmış br bçmn kullanmak daha kullanışlıdır. e E( e ) U Studentlaştırılmış Artık, ve T e T e n p olmak üzere S U T (3.8) bçmnde tanımlanmıştır [Margoln, 1977]. Burada T statstğnn parametresnn tahmn edcs, yan ˆ olduğu açıktır. S statstğ, lglenlmeyen

17 parametrelerden (nusance parameters) bağımsız olacaktır [Margoln, 1977]. Lteratürde Studentlaştırılmış Artıklar dahl ve harc olarak kye ayrılmıştır. Davd (1981), U ve T statstklernn bağımlı veya bağımsız olmasına göre br ayrım yapmıştır. Bu ayrıma göre, U ve T statstkler genellkle aynı verden gelmektedr ve eğer U ve T statstkler bağımlı se Dahl Studentlaştırılmış Artıklar, U ve T statstkler bağımsız se Harc Studentlaştırılmış Artıklar olarak adlandırmıştır [Cook ve Wesberg, 198]. 3..1 Dahl studentlaştırılmış artıklar Artık kareler ortalaması ˆ e n p Artıklar olmak üzere Dahl Studentlaştırılmış r e ˆ 1 h (= 1,,n) (3.9) bçmnde fade edlr [Cook ve Wesberg, 198]. Dahl Studentlaştırılmış Artıklar ortalaması 0 varyansı 1 olan normal dağılıma sahptr. Büyük çaptak ver setlernde, artıkların varyansı dengede tutulur [Acarlar, 009]. Böylece Studentlaştırılmış Artıklar le Dahl Studentlaştırılmış Artıklar çoğu kez brbrne yakın sonuçlar verr. Bununla brlkte büyük Dahl Studentlaştırılmış Artık değerne ve h değerne sahp br nokta, regresyon tahmnlern öneml derecede değştrme eğlmne sahptr [Montgomery ve ark., 001]. 3.. Harc studentlaştırılmış artıklar (RSTUDENT) Harc Studentlaştırılmış Artıklar çn bağımsız e değerlernden hesaplanan parametresnn br tahmn edcsne gerek vardır. Hataların normallğ varsayımı

18 altında,. gözlem çıkarıldıktan sonra statstğ parametresnn tahmn edcs olan ˆ ˆ n p ˆ e 1 h n p1 n p r n p1 ˆ (3.10) şeklnde tanımlanır. Normallk varsayımı altında, Harc Studentlaştırılmış Artıklar aşağıdak gb tanımlanır. ˆ ve e bağımsız olmak üzere t e ˆ 1 h (3.11) t ve r arasındak lşk de t n p1 r n p r 1/ (3.1) denklem le gösterleblr (Cook ve Wesberg, 198). t statstğ n p 1 serbestlk dereces le Student t dağılımına sahptr. c tnp 1, olmak üzere, t c se. gözlemn aykırı gözlem olduğu söyleneblr [Cook ve Wesberg, 198].

19 3.3 DFBETAS İstatstğ Besley, Kuh ve Welsch (1980) tarafından önerlen DFBETAS j, statstğ,. gözlem verden slndğnde, j. regresyon katsayısı olan ˆ j tahmnnn ne kadar değştğn göstermektedr.. gözlem verden slndkten sonra parametre vektörünün EKK tahmn edcs ˆ vektörü le gösterlsn.. gözlem slnmedğ zamank ver le elde edlen parametre vektörünün EKK tahmn edcs de ˆ olmak üzere, ˆ le fark ˆ arasındak DFBETA ˆ ˆ T X X 1 1 h x e T 1,,..., n (3.13) le elde edlr [Belsley ve ark., 1980]. Fakat DFBETA sadece vektörel değerl br sonuç vermektedr ve skaler değerl sonuç veren br statstk le etkl gözlemler saptamak daha kolaydır [Acarlar, 009]. Bu durumda skaler br ölçüt olan DFBETAS j, statstğ kullanılır [Belsley ve ark., 1980]. ˆ vektörünün j. elemanı ˆ j ve ˆ arasındak fark j ˆ vektörünün j. elemanı j ˆ olmak üzere, ˆ j le DFBETAS j, ˆ ˆ j j ˆ T X X c n j k 1 c jk 1 j e ˆ 1 h (3.14)

0 le elde edlr [Belsley ve ark., 1980]. Burada T c, 1 j C X X X T matrsnn j. satır,. sütun elemanıdır. sapma tahmndr ve ˆ term. gözlemn slnmesyle elde edlen standart y x 1 ˆ (3.15) n p ˆ k k k formülü le elde edlr [Acarlar, 009]. C matrsnn j. satırı c j ve Harc Studentlaştırılmış Artıklar (RSTUDENT) term t olmak üzere, DFBETAS j, statstğ DFBETAS j, c j cc c T j j j cc T j j e ˆ 1 h î t 1 h (3.16) formülü le de alternatf olarak hesaplanablr [Montgomery ve ark., 001]. Belsley, Kuh ve Welsch (1980) DFBETAS j, çn karar kuralını n olarak önermşlerdr. Buna göre DFBETAS, n se. gözlem br etkl gözlemdr [Montgomery ve ark., 001]. j 3.4 Uyumlar Arasındak Fark İstatstğ (DFFITS) Br etkl gözlem çeren verde, bu etkl gözlemn slnmesne dayalı br dğer yöntem Belsley, Kuh ve Welsch (1980) tarafından önerlen DFFITS statstğdr. Bu yöntem,. gözlem verden slndkten sonra hesaplanan tahmn değer orjnal verden elde edlen ŷ değerler arasındak farkı ölçmektedr. yˆ le

1 Orjnal verden elde edlen tahmn değer y ˆ ve. gözlem verden slnmesyle elde edlen tahmn değer de y ˆ le gösterlrse, bu k tahmn değer arasındak fark ˆ ˆ he DFFIT ˆ ˆ y y x 1,,..., n (3.17) 1 h le elde edlr. Ölçeklendrmeden kurtulmak amacıyla eştlk (3.17) dek farkı ˆ h termne bölmek gerekr [Acarlar, 009]. Böylece. gözlem verden slndğ zaman modele uydurulan y ˆ değerlernn kaç standart sapma değştğn gösteren DFFITS statstğ DFFITS yˆ ˆ y ˆ h 1 h e 1 h ˆ 1 h 1,,..., n (3.18) le gösterlr (Belsley, Kuh ve Welsch, 1980). Eştlk (3.18) dek 1 h 1 h term,. gözlemn kaldıraç gücüne karşılık gelmektedr [Acarlar, 009]. Çarpımın sağ tarafında yer alan e ˆ 1 h fonksyonu se Harc Studentlaştırılmış Artık (RSTUDENT) t değerne karşılık gelmektedr. DFFITS denklem DFFITS 1 h e 1 h ˆ 1 h h 1 h 1 t 1,..., n (3.19)

şeklnde tekrar yazılablr [Montgomery ve ark., 001]. Eğer ver noktası aykırı gözlem se, Harc Studentlaştırılmış Artık değer oldukça büyük olacaktır. Eğer ver noktası yüksek kaldıraç noktası se, h değer bre yaklaşacaktır. Her k durumda da DFFITS değer büyük olacaktır. Belsley, Kuh ve Welsch (1980), DFFITS çn karar kuralını pn olarak önermştr. Buna göre, DFFITS p n se. gözlem etkl br gözlemdr [Montgomery ve ark., 001]. 3.5 Cook Uzaklığı İstatstğ Cook (1977) tarafından önerlen Cook Uzaklığı statstğ, verdek bütün gözlemler kullanılarak parametre vektörüne at EKK tahmn vektörü ˆ le verden br gözlemn slnmesyle bulunan EKK tahmn vektörü ölçmektedr. Bu uzaklığın genel formu ˆ arasındak karesel uzaklığı D M, c T M ˆ ˆ ˆ ˆ (3.0) c şeklndedr [Montgomery ve ark., 006]. Bu eştlkte M T X X ve c ps le fade edlmektedr. Buna göre eştlk D M, c T T X X ˆ ˆ ˆ ˆ (3.1) ps şeklnde tekrar yazılablr. Büyük br D değerne sahp gözlem, parametre vektörünün EKK tahmn edcs olan ˆ vektörü üzernde öneml derecede etkye sahptr. D statstğ, p ve n p serbestlk dereces le yaklaşık olarak D Fp, n p dağılımına sahptr. Bu durumda.

3 gözlemn verden çıkartılmasıyla elde edlen parametre vektörünün EKK tahmn edcs olan ˆ vektörü, ˆ vektörü kullanılarak oluşturulan %50 lk güven elpsodnn sınırında ya da bu sınırın dışında se bu durumda oldukça büyük br sapma söz konusudur ve bu gözlemn etkl olduğu söyleneblr [Acarlar, 009]. Çünkü. gözlemn verden çıkartılmasıyla hesaplanan ˆ tahmn vektörünün %10 veya %0 lk güven elpsodnn çnde olması stenmektedr [Montgomery ve ark., 006]. Buna br örnek vermek gerekrse, 0 1 parametre vektörü dkkate alınsın. Bu parametreler çn oluşturulan %10 luk ve %50 lk güven elpsodler Şekl 3.1 de gösterlmştr [Acarlar, 009]. Şekl 3.1. Tek gözlem slme yöntemyle hesaplanan tahmn değerlerne lşkn grafk Şekl 3.1 de her defasında br gözlemn slnmesyle hesaplanan tahmn değerlerne at br grafk verlmştr. Bu grafkte çerde yer alan küçük elpsod %10 luk güven elpsodne, dışta yer alan büyük elpsod se %50 lk güven elpsodne karşılık gelmektedr. 1 numaralı gözlem verden slndkten sonra hesaplanan ˆ 1 tahmn %10 luk elpsodn çnde yer aldığından parametre tahmnler üzernde büyük br

4 etks bulunmamaktadır. Başka br deyşle 1 numaralı gözlem etkl gözlem değldr. numaralı gözlem verden slndkten sonra hesaplanan ˆ parametre tahmn %50 lk güven elpsodnn dışında yer aldığından parametre tahmnler üzernde büyük br etkye sahptr. Yan numaralı gözlem br etkl gözlemdr. Bağımsız değşken sayısı k le gösterldğnde ve. Studentlaştırılmış Artık r olmak üzere D statstğ D r k h 1 h (3.) bçmnde tekrar yazılablr [Montgomery ve ark., 006]. Bu oran, x vektörünün vernn ger kalanından ne kadar uzakta olduğunu göstermektedr. X ˆ X ˆ y ˆ y ˆ olmak üzere Cook Uzaklığı statstğ D T yˆ yˆ yˆ yˆ (3.3) ks bçmnde tekrar yazılablr (Montgomery, Peck ve Vnng, 006). F0.5, p, n p 1 olduğundan D statstğ çn krtk değer genellkle 1 alınmaktadır. Böylece D 1 se. gözlemn etkl gözlem olduğu söyleneblr [Montgomery ve ark., 006]. 3.6 S İstatstğ Etkl gözlemler tespt etmede kullanılan br dğer yöntem Pena (005) tarafından önerlen S statstğdr. S statstğ tek gözlem slme yöntemne dayalıdır. Bu yöntem; br gözlem slnmesnn parametre tahmnlern nasıl etkledğn ncelemek

5 yerne, slnen bu gözlemn örnektek dğer gözlemler tarafından nasıl etklendğn ncelemektedr. Yan, örnektek herhang br gözlem slndğnde her br gözlem çn yenden tahmn değer hesaplanmaktadır [Pena, 005]. Br gözlem slmenn tahmn vektörü üzerndek etksne bakmak yerne, alternatf br yaklaşım her br gözlemn slnmesnn tahmn değerlern nasıl etkledğn ölçmektr [Pena, 005]. Bu şeklde her br gözlemn vernn ger kalanı tarafından nasıl etklendğ ölçülmektedr.. bölümdek regresyon model Y X (3.4) ele alındığında, ˆ parametre tahmn vektörü le elde edlen. gözleme at tahmn değerler y ˆ ve verden br gözlem çıkartılmasıyla hesaplanan vektörü le hesaplanan. gözleme at tahmn değerler ˆ parametre tahmn j y ˆ j arasındak fark vektörü (1) ( n) T s yˆ yˆ,..., yˆ yˆ (3.5) bçmndedr [Pena, 005]. (3.5) numaralı eştlk. gözlem tahmn değernn verdek her br gözlemn slnmesne karşı hassasyetn göstermektedr. Böylece yen br statstk olan S statstğ, s vektörünün standartlaştırılmış karesel normu olarak S ss ps T yˆ (3.6)

6 bçmnde tanımlanmıştır [Pena,005]. Şapka matrsnn. sütun j. satır elemanı h j, şapka matrsnn. satır. sütun elemanı h, y ˆ y ˆ h e 1 h j ve s y j j jj ˆ s h olmak üzere S statstğ S 1 ps h n he j j (3.7) j1 1 h jj bçmnde tekrar yazılablr. olarak S statstğ Cook Uzaklığının alternatf br bçm S n jdj j1 (3.8) tekrar yazılablr. Burada 1 h h h 1 olmak üzere y ˆ ve y ˆ j arasındak j j jj korelasyona karşılık gelmektedr. Ayrıca j. gözlem tahmnne karşılık gelen artık değer ˆ j j j 1 j jj e y x e h j j şeklndedr [Acarlar, 009]. Bu artık değer kullanılarak S statstğ S n 1 w je j j ps j1 (3.9) bçmnde tekrar yazılablr. w j term se w j ph h j 1 h jj (3.30)

7 şeklndedr. S statstğnn üç özellğ bulunmaktadır. Bunlardan brncs, örnekte hç aykırı gözlem bulunmaması ve bütün h değerlernn küçük olduğu varsayımı altında, statstğne at beklenen değer yaklaşık olarak 1 p olmaktadır. Başka br deyşle, örnekte aykırı gözlem veya yüksek kaldıraç noktalarının olmadığı durumda, örnekte yer alan bütün gözlemlern aynı duyarlılığa sahp olması beklenr [Pena, 005]. İknc özellk, brden çok kestrc le büyük br örnek hacmne sahp verde statstğ yaklaşık olarak normal dağılım göstermektedr. Bu normal dağılım aykırı gözlemlern belrlenmesnde kullanılacak olan karar kuralı noktasının belrlenmesne olanak sağlamaktadır [Pena, 005]. Üçüncü özellk se, ver yüksek kaldıraç değerne sahp benzer aykırı gözlemler grubu tarafından bozulduğunda, S S S statstğ aykırı gözlemler le y noktalar arasındak ayırımı hassas olarak yapmaktadır [Pena, 005]. med S değer S değerlernn medyanı ve MAD S medan S med S olmak üzere, Pena (005) etkl gözlemlern tesptnde kullanılacak S statstğ çn karar kuralını 4,5 S med S MAD S (3.31) olarak önermştr. Bu eştszlk sağlanırsa. gözlem br etkl gözlemdr.

8 4. NURUNNABI, IMON VE NASSER TARAFINDAN ÖNERİLEN M İSTATİSTİĞİ Bu bölümde Nurunnab, Imon ve Nasser (011) tarafından önerlen M statstğ tanıtılmıştır. S statstğnde kaldıraç değerlerne fazla önem verlmştr. Bu nedenle brden fazla aykırı gözlemn bulunduğu regresyon problemlernde yüksek kaldıraç değerne sahp aykırı gözlemlern belrlenmesnde oldukça kullanışlı br yöntemdr [Nurunnab ve ark., 011]. Ancak, Imon (005) brden fazla etkl gözlem varlığında artıkların ve kaldıraç noktalarının çok çabuk bozulableceğn belrtmştr. Özellkle yüksek kaldıraç değerlerne sahp aykırı gözlemler ve Pena (005) nın statstğ gb tek gözlem slmeye dayalı yöntemler, bu gözlemlerden hanglernn gerçekten etkl gözlem olduğunu belrlemekte tam olarak başarılı olamamaktadır. Bu nedenden dolayı Pena (005) n grup slme yöntem gelştrlerek, Nurunnab, Imon ve Nasser (011) yen br etkl gözlem belrleme yöntem gelştrmşlerdr. Bu yöntem k aşamadan oluşmaktadır. Brnc aşamada şüphel etkl gözlemler tespt edlr. Ancak maskeleme ve/veya yanılgıya düşürme problem ve verde kalan dğer etkl gözlemlerden dolayı, brnc aşamada bütün etkl gözlemler belrlemek oldukça zor olablr. Bu yüzden herhang br tanısal ölçüt kullanılmadan önce bütün potansyel etkl gözlemler ncelenmeldr. Aynı zamanda etkl olmayan gözlemlern de yanlışlıkla slnmedğne emn olmak gerekr. Bu yüzden, knc aşamada şüphel gözlemlern gerçekten etkl olup olmadığını belrlemek çn S statstğnde kullanılan grup slme yöntem kullanılmalıdır. Bazen serpme dyagramı gb grafksel göstermler etkl gözlemler hakkında blg verc olarak kullanılablr. Ancak; bu grafkler, brden fazla bağımsız değşken olduğunda, artan boyut sayısından dolayı etkl gözlemler belrlemekte kullanışsız olmaktadır. Bu yüzden şüphel etkl gözlem grubunu belrleyeblmek çn lteratürde en küçük medyan kareler, yenden ağırlıklandırılmış kareler ve BACON yöntem gb

9 bazı sağlam regresyon yöntemlernn kullanılması önerlmştr (Nurunnab, Imon ve Nasser, 011). Bu yöntemde brnc aşamada, bütün şüphel etkl gözlemler tespt edlr. Bunun çn de her hang br grafksel gösterm ve/veya yukarıda bahsedlen sağlam regresyon teknkler de kullanılarak şüphel etkl gözlemler grubu saptanır. Şüphel gözlem gruplarının bulunmasından sonra, bu şüphel gözlemlern gerçekten etkl olup olmadıkları ncelenmeldr. Nurunnab, Imon ve Nasser (011), Pena nın (005) grup slme yöntemne dayanan yen br statstk gelştrmşlerdr. n gözlem sayısı olsun ve d se n gözlemdek şüphel etkl gözlemlern sayısı olarak varsayılsın. d sayıdak şüphel etkl gözlem grubuna at matrs D le, şüphel etkl gözlem olarak şaretlenmeyen gözlem grubu se R le gösterlsn. Böylece X ve Y matrsler X X X R D Y YR Y D (4.1) bçmnde fade edleblr [Nurunnab ve ark., 011]. D le gösterlen ver set slndkten sonra, uyumlu değerler olan ˆ D y değerler hesaplanmak stenmektedr. D le gösterlen ver set slndkten sonra parametre vektörünün tahmn edcs ˆ D le gösterlsn. Buna göre ˆ D ' 1 X X X Y (4.) ' R R R R olur. D le gösterlen ver set slndğnde bağımlı değşken değer olan y nn tahmn edcs ˆ D y le gösterlsn. Böylece Xˆ (4.3) D ˆ D y

30 olur. Bu durumda j. brm çn bağımlı değşken değer de D yˆ j le gösterlsn. X D matrsnn. satırı X R matrsne ve Y D vektörünün. elemanı da Y R vektörüne eklendkten sonra bağımlı değşken değer çn tahmn değer ˆ D y j () olmak üzere, D yˆ D j le yˆ j arasındak farkların vektörü ( D) ( D) ( D) ( D) ( D) T ( ) 1 1( ) n n( ) t yˆ yˆ,..., yˆ yˆ ( D) ( D) T t1( ),..., tn( ) (4.4) T T ve 1 h x X X x ve j j ˆ ˆ olmak üzere ( D) ( D) y y h ˆ ( D) ( D) ( D) t ˆ ˆ j( ) y j y j( ) 1 h ( D) j (4.5) olarak tanımlanmıştır [Nurunnab, Imon ve Nasser, 011]. D Sonuç olarak, V yˆ ( ) s h ve T ( D) ( D) ˆ ˆ s n p standartlaştırılmış norm olarak yen test statstğ olmak üzere, karesel M T ( D) ( D) t ( D) ˆ t (4.6) pv y bçmnde önerlmştr (Nurunnab, Imon ve Nasser, 011). Eştlk (4.4) ve (4.6) kullanılarak M statstğ M ks h ˆ n ( D) 1 hj (4.7) j1 1 h

31 olarak elde edleblr [Nurunnab ve ark., 011]. M statstğ eştlk (3.7) de verlen S statstğnn genelleştrlmş br formudur. med M değer M değerlernn medyanı ve MAD M medan M med M olmak üzere, M statstğ çn karar kuralı M med ( M ) 4,5MAD M (4.8) olarak önerlmştr [Nurunnab ve ark., 011]. Bu eştszlk sağlanırsa. gözlem br etkl gözlemdr.

3 5. UYGULAMA Bu bölümde etkl gözlemlern saptanmasında kullanılan Cook Uzaklığı statstğ (CD), Uyumlar Arasındak Fark (DFFITS) statstğ, Pena (005) tarafından önerlen S statstğ ve Nurunnab, Imon ve Nasser (011) tarafından önerlen M statstğ çn k uygulamaya yer verlmştr. DFFITS tanı statstğne lşkn karar kuralı parametre sayısı p ve örnek hacm n değerlernn br fonksyonu olduğundan, örnek hacm arttıkça krtk değer küçülmektedr. Bu yüzden etkl gözlemlern yanında EKK tahmnler üzernde öneml br etks olmayan gözlemler ble etkl gözlem olarak saptayablr. Bu sorunu dkkate alan Belsley ve arkadaşları (1980) DFFITS tanı statstğ çn örnek hacmnn 100 den büyük olmaması gerektğn belrtmştr (Belsley, Kuh ve Welsch, 1980). Bu yüzden, gözlem sayısı daha az olan Brownlee nn Stack Loss Vers [Brownlee, 1965] ve Gesell n Adaptve Score Vers [Cook ve Wesberg, 198] kullanılmıştır. 5.1. Brownlee nn Stack Loss Vers Brnc uygulamada Brownlee nn Stack Loss Vers kullanılmıştır. Çzelge 1 de verlen ver set, etkl gözlemler tespt le lglenen brçok araştırmacı tarafından kullanılmaktadır. Ver set 1 gözlemden oluşmaktadır. Bu gözlemlerden 4 tanes aykırı gözlem (1, 3, 4 ve 1 numaralı gözlemler) ve 4 tanes se yüksek kaldıraç noktasıdır (1,, 3 ve 1 numaralı gözlemler) [Habshah ve ark.,009]. Bağımsız değşkenlerden X 1 değşken hava akımını, X değşken soğutma suyu grş sıcaklığını ve X 3 değşken de ast yoğunluğunu göstermektedr. Bağımlı değşken Y se küme kaybını göstermektedr [Brownlee, 1965].

33 Çzelge 5.1. Brownlee nn Stack Loss Vers Gözlem No X1 - Hava Akımı X - Soğutma Suyu Sıcaklığı X 3 - Ast Yoğunluğu Y- Küme Kaybı 1 80 7 89 4 80 7 88 37 3 75 5 90 37 4 6 4 87 8 5 6 87 18 6 6 3 87 18 7 6 4 93 19 8 6 4 93 0 9 58 13 87 15 10 58 18 80 14 11 58 18 89 14 1 58 17 88 13 13 58 18 8 11 14 58 19 93 1 15 50 18 89 8 16 50 18 86 7 17 50 19 7 8 18 50 19 79 8 19 50 0 80 9 0 56 0 8 15 1 70 0 91 15 Çzelge de Stack Loss Vers kullanılarak hesaplanan Cook Uzaklığı statstğ, DFFITS statstğ, S statstğ ve M statstğnn değerler verlmştr. Tanı statstklernn yanında yer alan parantez çndek değerler lgl tanı statstklerne at krtk değerler göstermektedr. Kalın ve altı çzl olarak verlen gözlem numaraları se etkl gözlemler göstermektedr.

34 Çzelge 5.. Brownlee nn Stack Loss Vers Sonuçları Gözlemler CD (1,00) DFFITS 0,873 S (0,8815) M (0,034) 1 0,1537 0,7841 0,487,9493 0,0597-0,4886 0,4640 0,560 3 0,164 0,7111 0,5950 1,3799 4 0,1305 0,76 0,3781 0,150 5 0,0040-0,17 0,3447 0,0000 6 0,0196-0,798 0,333 0,0000 7 0,0488-0,4418 0,443 0,0000 8 0,0165-0,569 0,443 0,0016 9 0,0446-0,4 0,3709 0,0041 10 0,0119 0,184 0,3138 0,0165 11 0,0359 0,3788 0,5648 0,078 1 0,0651 0,510 0,633 0,05 13 0,0108-0,075 0,407 0,0797 14 0,0000-0,0089 0,354 0,0594 15 0,0385 0,395 0,1871 0,0003 16 0,0034 0,1163 0,1746 0,0000 17 0,0655-0,5118 0,156 0,006 18 0,0011-0,0670 0,1809 0,000 19 0,00-0,0934 0,3093 0,0006 0 0,0045 0,1340 0,18 0,0000 1 0,690-1,6637 0,8695 10,9930 Çzelge den de görüleceğ gb Cook Uzaklığı etkl gözlemler belrlemede başarısız olmuştur. DFFITS sadece 1 numaralı gözlem etkl gözlem olarak belrleyeblmştr. Fakat 1,, 3 ve 4 numaralı gözlemler maskeleme problemnden dolayı etkl gözlem olarak belrleyememştr. Pena nın S statstğ etkl gözlemler belrlemekte başarısız olmuştur. M statstğ se bütün etkl gözlemler belrlemştr. Ayrıca 13 ve 14 numaralı gözlemler de etkl gözlem olarak tespt etmştr.

35 Bu verden elde edlen sonuçlara göre Nurunnab, Imon ve Nasser (011) tarafından önerlen M statstğ etkl gözlemler dğer yöntemlere göre daha y tespt etmektedr. Şekl 5.1 de Cook Uzaklığı, DFFITS, S statstğ ve M statstklerne at hesaplanan test statstğ değerler grafksel olarak gösterlmştr.

36 (a) (b) (c) (d) Şekl 5.1. (a) Cook Uzaklığı statstğ değerlerne at grafk. (b) DFFITS statstğ değerlerne at grafk. (c) S statstğ değerlerne at grafk. (d) M statstğ değerlerne at grafk.

37 5. Gesell Adaptve Score Vers İknc uygulamada Los Angeles Kalfornya Ünverstesndek araştırmaya at olan bu ver, çocuklardak syanotk kalp krz le lgldr. Bu verde bağımsız değşken çocuğun lk kelmesn söyledğnde kaç aylık olduğu, bağımlı değşken se 1 çocuğa at Gesell n uyarlanablr puanını (Gesell Adaptve Score) göstermektedr [Cook ve Wesberg, 198]. Verde 1 gözlem bulunmaktadır. ve 18 numaralı gözlemler se aykırı gözlemdr. Ver set Çzelge 3 te gösterlmektedr. Çzelge 5.3. Gesell Adaptve Score Vers Gözlem Numarası İlk kelmede kaç aylık olduğu (X) Gesell n Uyarlanablr Puanı (Y) 1 15 95 6 71 3 10 83 4 9 91 5 15 10 6 0 87 7 18 83 8 11 100 9 8 104 10 0 94 11 7 113 1 9 96 13 10 83 14 11 84 15 11 10 16 10 100 17 1 105 18 4 57 19 17 11 0 11 86 1 10 100

38 Ver sadece br bağımsız değşkenden oluştuğu çn serpme dyagramı yardımıyla da hang gözlemlern aykırı olduğu tespt edleblr. Bu ver çn serpme dyagramı Şekl 5. de k gbdr. Şekl 5.. Gesell Adaptve Score versne at serpme dyagram Serpme dyagramdan da görüleceğ gb ve 18 numaralı gözlemler aykırı gözlemdr. Grafkte 19 numaralı gözlemde br aykırı gözlem olarak görünmesne rağmen bu gözleme at kaldıraç değerne bakıldığında çok büyük olmadığı görülmektedr. Bu gözlemlern etkl olup olmadığını belrlemek amacıyla Çzelge 4 te etkl gözlemler tespt etmede kullanılan Cook Uzaklığı statstğ, DFFITS statstğ, S statstğ ve M statstğnn değerler verlmştr. Tanı statstklernn yanında yer alan parantez çndek değerler lgl tanı statstklerne at krtk değerler göstermektedr. Kalın ve altı çzl olarak verlen gözlem numaraları se etkl gözlemler göstermektedr.

39 Çzelge 5.4. Gesell Adaptve Score Versne at test sonuçları Gözlemler CD (1,00) DFFITS 0,617 S 0,545 M 0,0545 1 0,0009 0,044 0,5837 0,0186 0,0815-0,4037 0,8644 0,148 3 0,0717-0,3786 0,4900 0,085 4 0,056-0,63 0,498 0,0343 5 0,0177 0,1884 0,5837 0,0186 6 0,0000-0,0088 0,7838 0,0348 7 0,0031 0,0791 0,716 0,045 8 0,0017 0,0578 0,4884 0,043 9 0,0038 0,0875 0,5108 0,040 10 0,0154 0,1757 0,7838 0,0348 11 0,0548 0,3311 0,556 0,0518 1 0,0047-0,0967 0,498 0,0343 13 0,0717-0,3786 0,4900 0,085 14 0,0476-0,3085 0,4884 0,043 15 0,0054 0,1035 0,4884 0,043 16 0,0006 0,0339 0,4900 0,085 17 0,0179 0,1890 0,4960 0,013 18 0,6781-1,1646 0,8617 3,0713 19 0,33 0,6683 0,6738 0,015 0 0,0345-0,68 0,4884 0,043 1 0,0006 0,0339 0,4900 0,085 Çzelge 4 den de görüleceğ gb Cook Uzaklığı etkl gözlemler belrlemede başarısız olmuştur. DFFITS sadece 18 numaralı gözlem etkl gözlem olarak belrleyeblmştr. Ayrıca 19 numaralı gözlem de yanılgıya düşürme problemnden dolayı etkl gözlem olarak belrlemştr. Pena nın S statstğ k etkl gözlem de tespt etmştr. Fakat yanılgıya düşürme problemnden dolayı normalde etkl olmayan 1, 5, 6, 7 ve 10 numaralı gözlemler de etkl gözlem olarak belrlemştr. M

40 statstğ se her k gözlem de etkl gözlem olarak belrlemştr. Bu k gözlem dışındak hçbr gözlem de etkl gözlem olarak tespt etmemştr. Şekl 5.3 te Cook Uzaklığı, DFFITS, S statstğ ve M statstklerne at hesaplanan test statstğ değerler grafksel olarak gösterlmştr. (a) (b) (c) (d) Şekl 5.3. (a) Cook Uzaklığı değerlerne at grafk. (b) DFFITS statstğ değerlerne at grafk. (c) S statstğ değerlerne at grafk. (d) M statstğ değerlerne at grafk.

41 6. SİMÜLASYON ÇALIŞMASI Bu bölümde etkl gözlemlern belrlenmesnde kullanılan Cook Uzaklığı statstğ, S statstğ ve M statstğ örnek hacmnn ve bağımsız değşken sayısının farklı durumları çn br smülasyon çalışması le etkl gözlemler tespt etme oranları bakımından karşılaştırılmıştır. Yapılan smülasyon çalışmasında ver üretmek çn Acarlar (009) tarafından kullanılan ver üretme yöntem kullanılmıştır. Verler, MATLAB01b paket programı kullanılarak türetlmştr. Etkl gözlemlern belrlenmesnde ortaya çıkablecek en büyük sorun maskeleme ve yanılgıya düşürme problemdr. Bu yüzden smülasyon çalışmasında maskeleme ve yanılgıya düşürme problem le karşılaşılmayacak şeklde verler oluşturulmuştur. Smülasyon çalışması aşağıdak adımlar zlenerek gerçekleştrlmştr. Adım 1: Etkl gözleme at kaldıraç değer dğer gözlemlere at kaldıraç değerlernden oldukça büyüktür. Bu yüzden 1 numara le gösterlecek olan etkl gözleme at kaldıraç değernn büyük olması sağlanmıştır. Bu amaçla k sayıda bağımsız değşkenlern değerler 10 olarak alınmıştır. Bu gözleme at hata termnn değer se 1 N(0,1) dağılımından türetlmştr. Bu şlemdek amaç, 1 numaralı gözleme at bağımlı değşken değern oldukça arttırarak dğer gözlemlerden ayrılmasını sağlamaktır. Daha sonra parametre değerler 1 olan Y1 1 X11... X1 k 1 (6.1) model kullanılarak bağımlı değşken değer olan Y 1 değer hesaplanmıştır.

4 Vernn dğer n-1 sayıdak gözlem değer çn k sayıda bağımsız değşken değerler [0,5] tekdüze dağılımından türetlmştr. Hata değşkenne at değerler se N 0,1 dağılımından türetlmştr. Adım : p 1 boyutlu ve brlerden oluşan parametre vektörü oluşturulmuştur. Adım 3: Hata değşkenlernn değerler N 0,1 dağılımından türetlmştr. Adım 4: Bağımsız değşken değerler ve hata değşkenlernn değerler kullanılarak,..., n Y X X 0 1 1... k k (6.) modelne göre bağımlı değşken değerler türetlmştr. Adım 5: Türetlen her br gözlem değer çn Cook Uzaklığı statstğ, DFFITS statstğ, S statstğ ve M statstğne at değerler hesaplanmıştır. Her br tanı statstğnn krtk değerne bakılarak 1 numaralı gözlemn etkl gözlem olup olmadığı ncelenmştr. Bu çalışmada k, k 3, k 4 ve örnek hacm n 0, n 30, n 40, n 50 alınarak tanı statstklernn, br etkl gözlem tespt etme oranları hesaplanmıştır. Her br deneme 1000 defa tekrar edlmştr. İlk olarak bağımsız değşkenn olduğu durum ncelenmştr. Yapılan smülasyon çalışmasının sonuçları Çzelge 6.1 de verlmştr.

43 Çzelge 6.1 k ken Y bakımından br etkl gözlem çeren verde etkl gözlem saptanma oranları n 0 n 30 n 40 n 50 Cook Uzaklığı 0.3540 0.100 0.170 0.1090 S İstatstğ 0.4080 0.3350 0.750 0.550 M İstatstğ 0.9770 0.9730 0.9680 0.960 Çzelge 6.1 ncelendğnde, farklı örnek hacmler altında M statstğnn br etkl gözlem çeren verde, bu etkl gözlem saptama oranının oldukça yüksek olduğu görülmektedr. Bununla brlkte, Cook Uzaklığı statstğ ve S statstğnn bu etkl gözlem saptama oranları örnek hacm arttıkça düşmektedr. Bu düşüşün Cook Uzaklığı statstğnde öneml derecede büyük olduğu görülmektedr. Modelde üç bağımsız değşken olduğunda, br etkl gözlem çeren verde tanı statstklernn farklı örnek hacmlernde, bu etkl gözlem tespt etme oranları Çzelge 6. de gösterlmştr. Çzelge 6. k 3 ken Y bakımından br etkl gözlem çeren verde etkl gözlem saptanma oranları n 0 n 30 n 40 n 50 Cook Uzaklığı 0.4040 0.70 0.1910 0.1370 S İstatstğ 0.4810 0.4550 0.3970 0.3470 M İstatstğ 0.9850 0.9810 0.9730 0.9660 Çzelge 6. ncelendğnde 3 bağımsız değşkenn olduğu yan p 4 olduğu durumda M statstğne at br etkl gözlem belrleme oranının oldukça yüksek olduğu görülmektedr. Ancak Cook Uzaklığı statstğnn etkl gözlemler belrleme oranı dğer tanı yöntemlernden çok daha düşüktür. Örnek hacm arttıkça tanı yöntemlerne at br etkl gözlem belrleme oranları düşmüştür. Fakat örnek hacmnn artması Cook Uzaklığı statstğnn etkl gözlem belrleme oranını oldukça fazla düşürmüştür.