Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 ROBUST TAHMİN EDİCİLERİ VE ÖZELLİKLERİ * Robust Estmators ad Propertes Yekta Stara KOÇ İstatstk Aablm Dalı Fkr AKDENİZ İstatstk Aablm Dalı ÖZET Robust tahm edcler, ver kümesde güvel gözlemler homoje dağılmaması durumuda güvel souçlar bulmak ve sapa değerler etks azaltmak amacıyla kullaılır. Bu çalışmada temel amaç; klask regresyo aalzde sapa gözlemler varlığı edeyle stadart varsayımları sağlamaması durumuda e küçük kareler yöteme alteratf olarak suula robust regresyo yötemler celemesdr. Bu çalışmada öce sapa değerler, kırılma oktası ve etk foksyou kavramları ele alıacak, sora robust bast regresyo ve çoklu regresyodak tahm edcler celeecektr. Öreklerle bu tahm edcler, e küçük kareler tahm edcsyle karşılaştırılacaktır. Aahtar kelmeler: E küçük kareler tahm edc, E küçük medya kareler tahm edc, Kırılma oktası, Robust tahm edc, Sapa değer. ABSTRACT Robust estmators are used for reducg the effects(weghts) of outlyg observatos the data set to get more relable ad stable estmators. The am of ths study s to propose robust regresso procedures as a alteratve method to Least Squares procedure whch s wdely used classcal regresso aalyss ad very sestve to outlyg observatos. I ths thess, frstly outler ad breakg pot cocepts wll be troduced, secodly a geeral overvew of estmators for robust smple ad multple regresso wll be gve ad fally these estmators wll be compared wth classcal Least Squares estmators ad examples wll be provded. Keywords: Breakg Pot,, Least meda squares estmator, Least squares estmator, Outler, Robust estmator, Grş Regresyo aalzde amaç; gözlee değerlere uya e y deklem oluşturmaktır. Brçok regresyo tekğ olmasıa karşı bularda e kullaışlı; olaı klasklğ ve hesaplama kolaylığıda dolayı e küçük kareler (EKK) tahm *Yüksek Lsas Tez-MSc. Thess 76
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 edcsdr. Fakat bu tahm edc sapa değerlere karşı çok hassastır. Bu probleme çözüm bulmak amacıyla sapalar değerlerde çok etklemeye ye statstksel tekkler gelştrld. Böylece robust (dayaıklı) tahm edcler ortaya çıktı. Bu yötem ver çoğuluğua uygu br model tasarlamaya çalışır. Ya, ver kümes küçük br bölümü sapa değerlerde oluşsa ble kala büyük bölüm güvelr souçlar verr. Bu çalışmada bast regresyo ve çoklu regresyo olmak üzere k aa başlık altıda robust tahm edcler ele alımış ve buları souçları örekler aracılığıyla klask EKK aalzyle karşılaştırılmıştır. Materyal ve Metot Materyal Regresyo aalzde amaç; gözlee değerlere e y uya deklemler oluşturmaktır. Klask leer model, +. y = x x e =,,, () p p dr. Burada öreklem geşlğ, x,, x p açıklayıcı değşkeler, y yaıt değşkedr. e hatalarıı se 0 ortalamalı ve blmeye varyaslı ormal dağılıma sahp olduğu varsayılır. Blmeye parametre vektörü ya.. p verde tahm edlr. Ver ç olaylar x. x. x değşkeler... x p... x p... x p y. y. y 77
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 matrs gösterm kullaılsı. Böyle br ver kümese regresyo tahm edcs uyguladığıda. p elde edlr. Burada j tahmler, regresyo katsayıları olarak adladırılır. Gerçek blmemese rağme j tahm edcler le açıklayıcı değşkeler j çarpılarak (2) y x... x p p (3) tahm edle değerler elde edlr. Bu durumda -c olayı r rezdüsü, y gözlemş değerler le ŷ tahm edle değer farkı olarak taımlaır. Ya, r =y - y (4) dır. E popüler regresyo tahm edc, m ˆ 2 r fadese karşılık gelr. Bu tahm edc amacı bu fadey mmum yaparak model e y duruma getrmektr. Bu yötem çok y ble e küçük kareler yötemdr (EKK). Bu yötem, statstğ öeml br köşe taşıdır. Popüler olmasıı ede se alaşılmasıı kolaylığıdır. 800 lü yıllarda buluduğuda blgsayarlar yoktu ve EKK tahm edcs verde belrl br matrs cebr le kolayca hesaplaablrd. Güümüzde ble brçok statstksel paket program hala geleeksellğ ve hesaplama hızıda dolayı ayı tekğ kullamaktadır Daha yakı zamalarda brçok araştırmacı, gerçek verler klask varsayımları tamame sağlamadığıı farketmeye başladı. EKK yötemde br ver kopyalaırke ya da taşıırke hatalı grldğde model tamame değşmektedr. Bu edele x ve y yöüdek regresyo sapaları stadart EKK aalzlerde cdd br rsk oluşturur. Bu problem çıkışı olarak robust regresyou ortaya çıktı. Bu yaklaşım sapalar tarafıda çok güçlü br bçmde etklemeye tahm edcler tasarlamaya çalışır. Bell belrsz robustlık fkre sahp brçok statstkç robustlığı amacıı bast br bçmde sapaları hmal etmek olduğua adı fakat bu doğru değldr. Akse (5) 78
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 robust aalz lk olarak ver çoğuluğuu br regresyoa uydurmak ster ve o zama robust çözümüde geş rezdülere sahp oktalar olarak sapaları keşfeder. Metot Daha robust br regresyo tahm edcse doğru lk adım Edgeworth de(987) geld. Bu tahm edc şu şeklde taımlaır: m ˆ r (6) Bu tekk geelde L regresyou olarak blr, EKK se L2 regresyou olarak blr. L regresyouu y-yöüdek sapmaya karşı robusttır fakat x-yöüdek sapaa karşı hassastır. Bu edele solu örekl kırılma oktası hala / dr. Bu yöde sorak adım Huber (973) bulduğu M tahm edcler kullaımıdır. Bu tahm edc m ˆ p( r ) (7) şekldedr. Burada p smetrk br foksyodur [p(-t)=p(t), t ç] ve 0 da tek mmuma sahptr. ˆ regresyo katsayılarıa göre bu fade farkı ( r ) x = 0 (8) eştlğ verr. Burada, p türev ve satır vektörüdür: x ( x,..., x p ) 0 = ( 0,,0 ) x -c durumdak açıklayıcı değşke Bu edele yukarıdak fade gerçekte p tae deklem br sstemdr. Çözümüü bulmak her zama çok kolay değldr. Pratk olarak Hollad ve Welsch (977) yede ağırlakladırılmış EKK yöteme dayaa fadeler tekrar kullaılır. 79
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 Bu deklem çözümü y ekse büyütülmese azara uygu br şekle döüştürülemez. Bu edele ı belrl br tahm le rezdüler stadartlaştırmak zorudayız. Ya ( r / ˆ) x = 0 (9) yazılmalıdır. Burada ˆ eş zamalı tahm edlmeldr. Mmax asmtotk varyas tartışmalarıa ede olduğu ç Huber (973) şu foksyou kullamayı ler sürdü: ( t) m( c,max( t, c)) (0) M-tahm edcler statstksel açıda L regresyouda daha etkldr. Ayı zamada uzaktak y lere göre hala daha robusttır. Fakat kırılma oktaları uzaktak x etks yüzüde hala / dr. Kaldıraç oktalarıı bu yaralaablrlğ yüzüde geelleştrlmş M- tahm edcler ler sürüldü..mallows (975) suduğu bu tahm edc belrl br ağırlık foksyou aracılığıyla uzaktak x sapalarıı etks sıırladırmak esas amacıdır. Mallows şu eştlğ kulladı: w( x ) ( r / ˆ) x 0 () Schwepp, Mallows u akse şuu kulladı: w( x ) ( r / w( x ) ˆ) x 0 (2) Bu tahm edcler br tek sapa gözlem etks sıırladırmak umuduyla yapıldı. Buları etks etk foksyou Hampel (974) dye adladırıla foksyolar aracılığıyla ölçüleblr. Bu edele karşılık gele GM (Geelleştrlmş M) tahm edcler geel olarak şu a sıırladırılmış etk tahm edcler olarak adladırılacaktır. Burada şu souç çıkar: Bütü GM tahm edcler kırılma oktası p br foksyou gb azala br değerde daha y olmayablr. Burada p 80
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 ye regresyo katsayılarıı sayısıdır. Bu çok yeterl değldr. Çükü bu arta boyutla brlkte kırılma oktasıı azalması alamıa gelr. Burada sapaları meydaa gelmes ç daha fazla fırsat vardır. Bu çalışma ayı kırılma oktasıa ulaşmış bütü GM tahm edcler göstermeyecektr. Fakat elbette k esas problem daha yüksek boyutlulardadır. Çeştl başka tahm edcler öerld. Maalesef bast regresyoda bu oktaları hçbr %30 luk kırılma oktasıa ulaşamadı. Üstelk oları çoğu p>2 ç ble taımlaamadı. Bütü bular yüksek kırılma oktalı robust regresyouu tamame mümkü olup olmadığı hakkıdak soruları arttırdı. Buu doğrulayıcı cevabı Segel(982) tarafıda verld. Segel %50 kırılma oktalı tekrarlı medya tahm edcs ler sürdüler. Gerçekte %50 bekleeblecek e y kırılma oktasıdır. Segel tahm edcs aşağıdak gb taımlaablr: Herhag p gözlem ç x, y,..., xp, yp olsu. Bu oktalara tam olarak uya parametre vektörü hesaplaır. Bu vektörü j-c koordatı, ˆ j med(...( med( med j(,..., p p p )))...) (3) m med r ˆ 2 (4) m ˆ ( r ) 2 : (5) eştlğyle verlr. Burada ( r 2 ) :... ( r 2 ) : (6) kares alıarak sıralamış rezdülerdr. (2.6) formülü EKK ya çok bezer. Tek farkı sapalarda uzakta kalması ç modele uymasıa z vermes suretyle e geş kares alımış rezdüler toplamda kullaılmamasıdır. LMS gb bu tahm edc de x leer döüşümler ç uygu döüşümlüdür ve zdüşüm takbe bağlıdır. E sağlam oralar h /2 olduğuda başarıldı. Bu ora da kırılma oktasıı %50 ye ulaşması durumudur. 8
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 LMS ve LTS her ks de rezdüler saçılımıı robust ölçümüü mmze ederek taımlaır. Buu geelleştrrsek Rousseeuw ve Yoha (984) S-tahm edcs dye adladırıla m S ( ) (7) ˆ le fade edle tahm edcy buldular. Burada S( ) fades, r ( ),..., r ( ) rezdüler ölçümüü robust M-tahm bell br çeşddr. Burada karışık sabtler uygu br seçmyle kırılma oktası %50 ye de ulaşablr. Buda başka S-tahm edcler aslıda M-tahm edcler gb ayı asmtotk performasa sahp olduğu ortaya çıkar. Araştırma Bulguları ve Tartışma Robust regresyou oldukça yüksek etkl ola oktaları etks azalta tahm edcler tasarlamaya çalışır. Br robust yötem ver çoğuluğuu br modele uydurmaya çalışır. İy oktalarla bçmlemş modelde uzakta yerleşe kötü oktalar souç olarak robust modelde geş rezdülere sahp olacaktır. Bu edele sapaları hassas olmayışıa ek olarak br robust regresyo tahm edcs bu oktaları bulumasıı kolay br ş olarak yapar. Elbette EKK dak rezdüler bu amaçla kullaılamazlar çükü sapalar çok küçük EKK rezdülere sahpke EKK model bu sapa oktaları çok fazla çekeblr. Ver Tablo de lstelee 4 ölçekl 2 gözlemde oluşur. Ver amoyağı trk aste oksdasyou ç br btkdek şlem taımlıyor. Yığı Kaybı (y), x ora şlem, x2 soğutulmuş suyu grş sıcaklığı ve x 3 ast kosatrasyou le açıkladı. Özetle lteratür atıf almış buluşları gösterdğ,3,4 ve 2. gözlemler sapa olduğu soucuu brçok saı çıkardığı söyleeblr. Bazılarıa göre 2. gözlem de br sapadır. EKK regresyou şu deklem verr: y ˆ 0,76x,295x2 0,52x3 39,9, EKK gösterge grafğ Şekl de gösterlyor. Rezdüler stadartlaştırılması rezdüler her br kısmıa modele uygu ölçek tahm le uygulaır. Yatay şert 2.5 le 2.5 arasıda stadartlaştırılmış rezdüler etrafıı çevryor. Böyle Şekl de olduğu gb sapa göze çarpmıyor. EKK gösterge grafğde stadartlaştırılmış EKK rezdüler şerd çe tamame düştüğü ç ver kümes sapa çermedğ soucua varılır. Fakat Şekl 2 ye bakarsak e küçük medya kareler ( LMS ) le lşkl ola gösterge grafğ y ˆ 0,74x 0,357x2 0,000x3 34,5, 82
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 Tablo Yığı Kaybı Vers (Stackloss Data) İdeks Ora Sıcaklık Ast Kosatrasyou Yığı Kaybı ( ) ( x ) ( x 2 ) ( x 3 ) ( y) 80 27 89 42 2 80 27 88 37 3 75 25 90 37 4 62 24 87 28 5 62 22 87 8 6 62 23 87 8 7 62 24 93 9 8 62 24 93 20 9 58 23 87 5 0 58 8 80 4 58 8 89 4 2 58 7 88 3 3 58 8 82 4 58 9 93 2 5 50 8 89 8 6 50 8 86 7 7 50 9 72 8 8 50 9 79 8 9 50 20 80 9 20 56 20 82 5 2 70 20 9 5 Kayak: Browlee (965) 83
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 Şekl. Yığı kaybı vers: EKK ye göre deks grafğ Şekl 2. Yığı kaybı vers: LMS e göre deks grafğ Bu grafk robust modele dayaır ve gerçekte zararlı oktaları varlığıı ortaya çıkarır. Bu gösterge grafğde, 3, 4 ve 2. gözlemler e uzakta olduğu 84
Ç.Ü Fe Blmler Esttüsü Yıl:2008 Clt:7-5 ve 2. gözlem sapaları olduğu bölge sıırıda olduğu ç arada olduğu heme açık br bçmde görülür. Bu durum robust regresyo tekğmz bu very tek br hamlede asıl aalz edebldğ gösteryor. Bular ayı ver kümes lk aalzlerde zahmetl ve uzu ola bazılarıyla kıyaslaır. Bu örek sadece EKK rezdülere bakılmasıdak tehlkey br kere daha gösteryor. Her regresyo aalzde EKK ve robust yötem her ks stadartlaştırılmış rezdüler kıyaslamaı gerekl olduğuu söyleyeblrz. Eğer k yötemde souçları heme heme ayı se o zama EKK güvelr olablr. Eğer farklı se robust yötem sapaları ortaya çıkarmak ç uygu br araç olarak kullaılablr. Burada o zama sapalar tamame araştırılablr ve belk düzeltleblr ya da sleblr. Souçlar LMS, LTS, L,S, M ve GM tahm edcler taımladı, EKK ve brbrleryle kıyasladı ve e y kırılma oktasıa S tahm edcs ulaştığı ortaya çıktı. LMS tahm edcs dğerlere kıyasla daha kolay hesaplaablmesde dolayı daha kullaışlı olduğu ortaya çıktı. Bu çalışmada hareketle buda sora verlerle br şleme başlamada öce sapa değerler bulmak amacıyla robust tahm edclerde herhag br kullaılması öerleblr. Kayaklar BROWNLEE, K.A., 965. Statstcal Theory ad Methodology Scece ad Egeerg, 2d ed., Joh Wley & Sos, New York. EDGEWORTH, F.Y.,887. O observatos relatg to several quattes, Hermathea, 6, 278-285. HAMPEL, F.R., 974. The fluece curve ad ts role robus estmato, J. Am. Stat. Assoc., 69, 383-393. HUBER, P.J., 973. Robust Regresso: Asymptotcs, Cojectures Ad Mote Carlo, A. Stat.,, 799-82. MALLOWS, C.L., 975. O Some Topcs Robustess, Upublshed Memoradum, Bell Telephoe Laboratores, Murray Hll, NJ. ROUSSEEUW, P.J., 983. Multvarate Estmato Wth Hgh Breakdow Pot, paper preseted at Fourth Paoa Symposum o Mathematcal Statstcs ad Probablty, Bad Tatzmadorf, Austra, September 4-9, 983. Abstract IMS Bull., 983, 2, p.234. Appeared (985), Mathematcal Statstcs ad Applcatos, Vol. B., edted by W. Grossma, G. Pflug, I. Veze, ve W. Wertz, Redel, Dordrecht, The etherlads, pp. 283-297. ROUSSEEUW, P.J., 984. Least Meda of Squares Regresso, J. Am. Stat. Assoc., 78, 87-880. ROUSSEEUW, P.J. ad LEROY, A.M., 987. Robust Regresso ad Outler Detecto, Joh Wley & Sos SIEGEL, A.F., 982. Robust regresso usg repeated medas, Bometrca, 69, 242-244. 85