ANADOLU ÜNvERSTES BlM VE TEKNOLOJ DERGS ANADOLU UNIVERSITY JOURNAL OF SCIENCE AND TECHNOLOGY CltNol.:2 - Sayı/No: 2 : 265-270 (2001) ARAŞTIRMA MAKALESIRESEARCH ARTICLE DOGRUSAL REGRESYONDA SAGLAM TAHMN EDcLER VE BR UYGULAMA Meral Cada ÇETN1, Ayur ORSOY1 ÖZ Bu çalışmada, regresyo aalzde çok sık kullaıla E Küçük Kareler (EKK) yötem le sağlam (robustgüçlü/gürbüz) M yötem ve yüksek bozulma oktasıa sahp E Küçük Medya Kareler (EMK) ve MM yötemler taıtılmıştır. Bu sağlam yötemler, doğrusal modele uya tıbb br ver set üzerde EKK le karşılaştırılmıştır. Aahtar Kelmeler: Sağlam tahm edcler, Doğrusal regresyo model, Bozulma oktası, M tahm edcler. ROBUST ESTIMATORS IN lınear REGRESSION AND A STUDY AB5TRACT I ths study, the least squares method (LS) whch s commoly used the aayss of regresso, the M method that gve robust estmates, the LMS (least meda of squares) ad MM methods havg the propertes of robustess ad hgh breakdow pot are preseted. The real data set obtaed from a expermetal study s ftted to the lear model. The robust estmates obtaed from ths model compared wth EKK. Key Words: Robust estmators, Lear regresso model, Breakdow pot, M-estmators. 1. GRş Br doğrusal Y=X/3= E bçmde taımlaır. regresyo model, Burada, Y, xl boyutlu bağımlı değşke vektörü; X, x(p+ ) boyutlu bağımsız değşkeler matrs;,(p+ I)xl boyutlu parametre vektörü; E, xl boyutlu hatalar vektörüdür. X ble sabt değerler ve Y gözleedeğerler, parametre vektörü 'ı tahmde kullaılır. E Küçük Kareler (EKK) tahm edcs 13, E = Y - x (2) olmak üzere, AKTfJ= (Y - xfj)' (Y - x1j) fades e küçük yapa 13 değer olarak belrler. Bu eştlkte, AKPfJ artıkları kareler toplamıı göstermektedr.(3) eştlğde parametre vektörü, rak(x)=(p+1) olmak üzere, (1) (3) (4) eştlğde elde edlr. /3 parametreler e y tahm edcler elde edlmes ç hata vektörü E üzere koa bazı varsayımları sağlaması gerekr. Bu vektöre lşk temel varsayımlar Myers (l986)'de celeeblr. Regresyo modeller EKK le aalzde karşılaşıla öeml sorularda br kuşkulu gözlemlerdr. Br ver kümesde kuşkulu gözlemler aykırı değer, uç değer ya da etk gözlem olarak ortaya çıkablr. Doğrusal regresyo modellerde uç değer (extrem value), açıklayıcı değşke ucuda ola ve dağılımı k ucuda yer ala gözlem; aykırı değer (outler), ver kümesdek dğer gözlemlere göre daha büyük artıklı gözlem; etk okta (laverage pot) se tahm souçlarıı büyük ölçüde etkleye gözlem olarak taımlamaktadır. Eger aykırı değer ya da uç değer değer, ver kümesde çıkartıldığıda bu gözlemler model kestrmde büyük br etk yapıyorsa ayı zamada etk gözlem olarakta fade edlmektedr (Özme, 1998). Hacettepe Üverstes, Fe Fakültes, İstatstk Bölümü, Beytepe-ANKARArrÜRKİYE. E-posta: meral@hacettepe.edu.tr; aorsoy@hacettepe.edu.tr. Gelş: 29 Aralık 1999; Düzeltme: 14 Nsa 2000; Kabul: 21 Hazra 2000.
266 Br ver kümes kuşkulu gözlem(1er) çeryorsa bu gözlem(1er) tahmler üzerdek etks belrlemesde farklı taısal yötemler ve araçlar kul1aılmaktadır. Bu yötemlere alteratf olarak öerle sağlam yötemler le, aykırı ve uç değerler etkse karşı duyarsız ya da çok az duyarlı tahmler elde edleblmektedr. Br tahm edc sağlamlığıı öeml br ölçüsü bozulma oktasıdır (breakdow pot). Bozulma oktasıı geel br taımı Hampel (1971) tarafıda verlmştr. Daha sora Dooho ve Huber (1983) solu öreklemler ç daha bast br taım vermştr (Rousseeuw ad Leroy, 1987). Bu taıma göre, y br sağlam tahm edc yüksek br bozulma oktasıa sahp olması gerektğ söylemektedr. Bozulma oktası ç elde edleblecek e yüksek değer, % 50'dr. Çükü, % 50'y aşa bozulma oktası le orıal gözlemlerle aykırı değerler arasıda ayırım yapılamamaktadır. Br tahm edc sağlamlığıa karar vermede kul1aıla başka br ölçütte etklk foksyoudur. Etklk foksyou ve bu foksyoda elde edle bazı öeml sağlamlık ölçüler Hampel (1971), Huber (1981), Hampel et al. (1986) tarafıda celemştr (Cada, 1995). Tüm tahm edcler bozulma oktası hesaplaablr, acak heps ç etklk foksyou taımlaamayablr(rousseeuw ad Leroy, 1987). Kayaklarda bozulma oktası ve etklk foksyou açısıda celee çok sayıda sağlam yötem temel, artıkları kareler toplamıı kul1aılması yere aykırı değerler etks azalta foksyoları kul1aılmasıa dayamaktadır. Bu çalışmada, bu yötemlerde bazıları taıtılacak ve br uygulama üzerde karşılaştırılacaktır. 2. MYÖNTEM karşı Huber (1964), EKK tahmler aykırı değerlere duyarlılığıı azaltmak ç (3) fades e küçük yapılması yere, uygu br p foksyouu kullaılmasıı öermştr. Bua göre br M tahm edcs, M p (Y - Xf3) (5) f3 sağlaya f3 değer olarak ya da P'(y) = lj/(y) olmak üzere, 2: lfi(y - Xf3)X = O =! (6) deklem sstem çözümüde elde edlmektedr (Orsoy, 1998). (5)'dek p foksyou doğrusal değldr ve teratf yötemlerle çözülür. Eğer p koveks se (5) le (6) eştlkler çözümü ayıdır; değlse (6)'ı e y çözümüü elde edlmesde problemler çıkablr. Burada, c'ler E [lfi(cj)] = Oolacak bçmde bağımsız Aadolu Üverstes Blm ve Tekoloj Dergs, 2 (2) ve özdeş dağılımlı oldukları varsayılmaktadır (Huber, 1981). Huber' pfoksyou, y2/2, p(y) = ( klyl- k 2/2, bçmde taımlamıştır. 1ItI ) - {y, 'Y -- ksg(y), foksyou elde edlmektedr. Burada, Sg(y) = { -I +1 y<k y>k İ \If(}'=af3) X = O =! deklem sstemde brlkte (ayı ada) tahm öerlmştr. y::; k y> k ve k, ver kümes ormal dağılması durumuda yüksek etklğe sahp (% 95 cvarıda) br tahm edc elde edlmes ç seçle sabt br değerdr. k ç öerle bazı değerler Hogg (1979)' da verlmektedr. Hubcr' tahm edcs ç bu değer,.345'tr. M tahm edcler bulumasıda kul1aılmak üzere değşk LfI foksyoları verlmektedr. Adrews (1974), \f(y) = {S(Y/k), y < k O, y k (9) foksyouu verıştr.lfi, yede azala (re-descedg) br foksyo olduğuda uç gözlemlerde sıfıra yakı değerler almaktadır. Br başka fadeyle, ver kümesdek stemeye gözlemler atılmaktadır. Yüksek br etklk ç k= 1.339 verlmektedr (Orsoy, 1998). (7) (8) Tukey (974)' çft karesel (bsquare) foksyou, \If(y) = y[ - (t-t]2 Bu foksyou türev alıarak, (10) bçmde taımlıdır (k=4.685). Bu foksyo da yede azala br 1fIeğrse sahptr (Orsoy, 1995). M tahmler teratf yötemlerle hesaplamasıda, yede ağırlıklı E Küçük Kareler (reweghted least squares) ve Huber le Dutter (1974) tarafıda öerle H algortması kullaılmaktadır (Cada, 1995). M yötemyle elde edle tahmler ölçek değşmez (equvarat) olması ç br a ölçeğ le f3'ı (11) 3. EN KÜÇÜK MEDYAN KARELER YÖNTEM Doğrusal regresyo modeller parametreler yüksek bozulma oktalı, çok sağlam parametre tahmler elde edlmes amacıyla, 0.50 bozulma oktasıa sahp öreklem medyaıa bazı seçeekler öerlmştr.
Aadolu Uversty Joural of Scece ad Techology, 2 (2) 267 EKK' sağlamlaştırılması adıa öeml br yaklaşım, tahmler elde edlmesde amaç foksyoudak toplam yere medya kullaılarak olmuştur. Br 13 E Küçük Medya Kareler (EMK) tahm edcs, artıkları kareler medyaıı e küçük yapa {3 değer olarak, M meder f3 bçmde taımlamaktadır. (12) Sağlam regresyo yötemler öeml br özellğ, doğrusal br lşkye tam uya oktaları ortaya çıkarmaktır. Rousseeuw (1984), EMK tahm edcler gözlemler e az [ - (I2) + p - ç bu özellğe sahp olduğuu göstermştr. EMK yötem, Rousseuw ve Leroy (1987) tarafıda verle yede örekleme (resamplg) algortması le hesaplaır. Bu algortma, sürekl bağımsız değşkeler ç kullaılmaktadır. Eğer model tek göstermelk değşke çeryorsa yede örekleme algortması le EMK' elde edlmes güçleşr. Atkso (1994) da çok değşkel aykırı değerler ç ler doğru hızlı (fastforward) br algortma öermştr. EMK tahm edcs x değşkelerdek aykırı değerlere olduğu kadar y değşkedek aykırı değerlere karşı da dreçl ve sağlamdır. Bu tahm edc bozulma oktası O.5'tr (Cada, 1998). 4. MM YÖNTEM MM yötem, statstksel etklğ (hataları ormal dağıldığı varsayımı altıda) yüksek ve yüksek bozulma oktasıa sahp br yötem olarak Yoha (1987) tarafıda öerlmştr. MM tahmler 3 aşamada aşağıdak gb taımlaır: ı.aşama Yüksek bozulma oktasıa sahp (mümküse 0.5) br başlağıç tahm seçlr. 2.Aşama: e(ta) :::; Y - To' X ::5 s: (13) artıkları hesaplaır. Burada, To başlagıç tahm göstermektedr. s:::; s(e(to» M ölçek tahm, Yoha (1987)'de verle varsayımları sağlaya PO foksyou kullaılarak, bla:::; 0.5 eştlğ sağlaya br b sabt ç, (1l)L P(e ({3) s):::;b == ı çözümüde hesaplaır. Burada, a:::; max PO (u) dur. Huber (1981), bu lk ölçek tahm 0.5 bozulma oktasıa sahp olması ç, b/a=o.5 olması gerektğ spatlamıştır. 3.Aşama: Pı- PO ıçı verle koşulları sağlaya dğer br foksyo olmak üzere, P] (u) ::5 PO (u) ve SeT]) ::5 S(Ta) Burada, S(e) = L Pı(e (/3) s) =l olmaktadır. (14) lfiı(e ({3)/s)x =O (16) ==ı eştlğ br çözümü olarak taımlaır. Bu T ı tahm le, sup P] (u) =sup PO (u) =a olmak üzere, MM tahm T ı ' (15) (17) dr. Pı (010), Oolarak taımlaır. Bu tahmler hesaplamasıda M tahmler hesaplamada kullaıla teratf ağırlıklı EKK algortmasıı değşk br bçm öerlmştr. Bu algortma da Yoha (1987)'de verlmektedr. 5. UYGULAMA Bu bölümde, öce gerçek br ver kümes, sora gerçek ver kümes değştrletek elde edle ye ver kümes üzerde EKK, M (Huber, Tukey, Adrews), EMK ve MM parametre tahmler elde edlmştr. Çalışmada SAS 6.0 programıda yazıla macro br program le Huber, Tukey, Adrews türü M tahmler hesaplamış ve XLspstat 2.1 programıda yazıla br programla da EMK ve MM tahmler elde edlmştr. Çalışmada kullaıla ver kümes, Hacettepe Üverstes Hastaes'e başvura 22 hastaya lşk değerler çermektedr. Br bağımlı (Y) olmak üzere, çalışmada kullaıla tüm değşkeler aşağıda verlmektedr: Xı : Osteocals mktarı. X 2 : Paratrod hormou. X 3 : Yaş. Y : Kemk meral yoğuluğu. Yukarıda verle değşkeler çere 22 gözlerrl ver kümes Tablo l'de verlmektedr. Bu ver kümes ç elde edle EKK ve sağlam parametre tahmler le artık kareler toplamları (AKT) da Tablo 2'de verlmektedr: Bu tahm souçlarıda elde edle artık değerlerde ver kümes hç aykırı değer çermedğ soucua varılmıştır.
268 Aadolu Üverstes Blm ve Tekoloj Dergs, 2 (2) 51 51 ı.j,t 20.. 3 3 j ' ' ı- l :1.=50...=;1 a... J.' ", e..,s.1,8 " 1 -: J 1.0,6,7,8,9 1,0 (a) (b) :\ '". :ı IḌ.s l, 2.:,.'l.-.. 1. ı-'...,.,.:. -1.t.s.1,8 " ı.o.s.7.8.s Artk (C) (d) 25 ı ııı 20. 1,5 ve.s,... j,5.. _ "1 -',o -d -1,5 J =ıe._,;:;a: "a. a,8.7,s 0,0 """... -,Ô1 \. 1,0 0,0.5 1,0 1,5 20 25 M 3,5 " lrtlk (e) (t) Şekl 1. EKK ve Sağlam Tahm Edcler İç Elde Edle Grafkler: a) Huber b) Tukey c) Adrews d) EMK e) MM f) EKK
-0.005986 Aadolu Uversty Joural of Scece ad Techology, 2 (2) 269 Regresyo katsayıla,------tl----r-------,--------c------t--'---. I X, ı x, At<T.OOt ı X, I---;;:03524.-01-74-+-----ı l - 1720.15 8.52799 IluberM TukeyM AdrewsM EMK MM Tablo 1. =22 GözlerH ver Kümes. Osteocals Yaş Paratrod Kemk meral Mktarı yoğuluğu 4,85 62 34,7 0,76 2,98 60 20,7 0,69 3,86 68 40,1 0,76 3,16 60 32,5 0,8 3,4 65 23,5 0,78 6,27 50 27,2 0,96 6,6 57 41,5 0,71 3,06 63 19,5 0,72 2,87 66 16,3 0,72 1,45 52 27 0,69 2,49 56 22,9 0,74 4,1 59 44,3 0,68 2,18 52 19,7 0,88 2,16 63 25,4 0,7 3,13 70 18 0,7 5,95 64 36,6 0,82 1,5 45 36,3 0,75 2,71 50 38,5 0,88 2,71 60 31,2 0,78 7,72 63 71,4 0,8 2,01 64 20,4 0,72 1 9 53 57 1 0,66 Tablo 2. EKK ve Sağlam Parametre Tahmler. EKK ve sağlam tahmler aykırı değer varlığıda karşılaştırmak amacıyla bağımlı değşkedek 20. gözlem değer 5 olarak değştrlmştr. Oluşturula bu ye ver kümes kullaılarak tüm souçlar yede elvo_,.. ı x.i:- x.1 EKI< 1.0874! 0.0288! -0.0023 \ -0.006 ' 0.070201 (01385) (0.<>096) (0.0012) (0.0022) LI 0.07167 LI 'ıııubdr M 1 1.071767 Iİ 0.033896-0.002374 LI TukeyM 1.0847 0.032-0.00234-0.006 1 o. 07204 (O.l'1) (OlXN) (o.ooıı) (0.0021) AdrewsM 1.08659 00364-0.00247-0.0063 0.07325 (0.1165) (0.00825) (0.001) (O.OOI9) EMK 0951655 0.036369-0.00216!-0.00445 0.08109 MM \0372 0.0253871-0.0019 1-0 0052 007105l ıo.uıa) (O.oo77j) (0.0011) (V.oom) Tablo 3. EKK ve Sağlam Parametre Tahmler. I ro 12S2S) (000882) (000108) (0002031 (W6') 0.9599 (0.3598) 1.1255 (0,t496) 1.1199 {O.ı46) 1.25528 0.1455 (0.1058) 0.0406 (0.0246) 0.02858 (0.0099) 0.020289 0.02916 (o.cm) (0.0134) (0.0247) -0.0007 'ı -0.0052 (0.0035) (0'<1054) -0.0028 ı -0.00639 (0.00\4) (MOı3) -0.0028 (0.0014) -0.00035-0.0023 (0.001) -0.00638 (O.QO::!2) -0.00878-0.006 (0.002) 16.95 18.20726 18.14808 17.4445 18.0363 Tablo 4. Tablo 1 ve Tablo 2'de Verle Herbr Tahm İç Katsayılar Arasıdak FarklılıklarıMutlak Değerler. Regresyo katsayıları Yötem Sabt x, X. X, EKK 2.80755 0.1167 0.03754 0.0234 f---. RuberM 0.l1ı86 00067 000ı67 0.00079 TukeyM 0.0408 0.00342 0.00046 0.00039 AdrewsM 0.0333 0.0064 0.00033 0.00008 EMK 0.30365 0.01617 0.0018 0.00433 MM 0.04836 0.0037 0.0004 0.0008 de edlmştr. Tek aykırı değer varlığıda elde edle souçlar Tablo 3' de verlmştr. Bu yötemler ç artık grafkler Şekl I.' de verlmektedr: Şekl l 'de görüldüğügb EKK' artık grafğ dışıda dğer yötemler artık grafkler brbre bezemektedr. Sağlam yötemlerle elde edle artık değerler 20. gözler dışıda sıfıra yakı elde edlmştr. 20. gözler artık değer se yaklaşık 4 cvarıdadır. EKK grafğde se artıkları rasgele değl br sstematk br dağılış gösterdğ görülmektedr. 20. gözler artık değer e = 1.98 olup bu değer aykırı değer olarak gözlememştr. 6. SONUÇ ve TARTIŞMA Aykırı değer çere ver kümelerde sağlam regresyo yötemler uyguladığı çalışmalar çok sayıdadır. Öreğ, Huyh (1982), EKK, Huber, Hampel, Adrews, Tukey tahmler karşılaştırdığı çalışmada, =20 gözleml ver kümese EKK yötem uyguladığıda, 3., ll. ve 18. gözlemler aykırı; Huber, Hampel, Adrews ve Tukey' yötemleryle se sadece 3, ve 18. gözlemler aykırı olarak belrlemştr. Rousseeuw (l984)'u =20 gözleml ver kümes ç yaptığı çalışmada, EKK yötem le hç aykırı değere rastlamazke, EMK yötem le 4 gözlem aykırı olarak belrlemştr. Yoha (1987) se, br ver kümes üzerde çok sayıda aykırı değer varlığıda MM tahmler etklğ ve sağlamlığıı göstermştr. Bu çalışmada da aykırı değer çere br ver kümesde bu sağlam yötemler tümü EKK le karşılaştırılmıştır. Ver kümes aykırı değer çermedğde, Tablo 2'de verle souçlarda EKK, M (Huber, Tukey, Adrews), EMK ve MM tahmler şaretçe ayı, büyüklükçe bezer elde edlmştr. AKT değerler de brbre yakı bulumuştur. Parametre tahmler ve AKT'ıda
270 EKK ve sağlam tahm yötemler tümüyle, ver kümesyle y uyumları elde edldğ görülmektedr, Ver kümes çdek tek gözlem aykırı değer olarak değştrlp yede elde edle souçlarda (Tablo 3), tüm sağlam tahmler şaretçe ayı, büyüklükçe bezer; EKK tahmler se hem şaretçe hem büyüklükçe farklılık gösterdğ görülmektedr. Tablo 4'de elde edle souçlarda, tahmler arasıdak uzaklık değerler celedğde,e büyük değerlerekk yötemde elde edldğ görülmektedr. Özellkle, sabt katsayılar arasıdak farklılık dkkat çekcdr. Orjal ver kümesde elde edle EKK tahmlere e yakı souç, MM yötemyle elde edlmştr. Bu souç ç, Tablo2' lk ve Tablo 3'ü so satırları celemeldr. Daha öce yapıla çalışmalarve bu çalışma da göstermektedr k, ver kümes tek aykırı değer çerse ble EKK tahmler bu değere duyarlı olablmektedr. Aadolu Üverstes Blm ve Tekoloj Dergs, 2 (2) Meral Cada Çet, Akara doğumludur. Hacettepe Üverstes İstatstk Bölümü'de mezu oldukta sora yüksek lsas eğtm ayı üverstede tamamlamıştır. Hale İstatstk Bölümü'de Araştırma Görevls olarak doktora tez çalışmalarıa devam etmektedr. KAYNAKÇA Cada, M. (1995). Doğrusal Regresyo Çözümlemesde Sağlam Kestrcler, Yayılamamış Blm Uzmalığı Tez, Hacettepe Üverstes,Akara, s.94. Hampel, ER. (1971). A geeral qua1tatve defto of robustess, The Aals of Mathematcal Statstcs,42(6),1887-1896. Hogg, Robert V. (1979). Statstcal robustess: Oe vew of ts use applcatos taday, The Amerca Statstca, 33(3), 108-115. Huber, PJ. (1981). Robust Statstcs, Joh Wley & Sos Ie., NY, s.308. Huyh, H. (1982). A comparso of four approaches to robust regresso, Psychologcal Bullet, 92(2), 505-512. Myers, R.H. (1986). Classcal ad Moder Regresso wth Applcatos, Duxbury Press, Bosto, Massachusetts, s.358. Orsoy, A. (1998). Doğrusal ve DoğrusalOlmaya Regresyoda Bozulma Noktasıa Sahp Tahm Edcler, Yayılamamış Blm UzmalığıTez, Hacettepe Üverstes, Akara, s.102. Özme, İ. (1998). Posso Regresyo Çözümleme Tekkler, Yayılamamış Doktora Tez, Hacettepe Üverstes, s.72. Rousseeuw, PJ. (1984). Least Meda of Squares Regresso, JASA, 79(388),871-880. Rousseeuw, PJ. ve Leroy, A. (1987). Robust Regresso ad OutZer Detecto, Joh Wley, NY, s.329. Yoha, VJ. (1987). Hgh breakdow pot ad hgh effcecy robut estmates for regresso, The Aals ofstatstcs, 15(20),642-656.