REGRESYON ANALİZİNDE KULLANILAN EN KÜÇÜK KARELER VE EN KÜÇÜK MEDYAN KARELER YÖNTEMLERİNİN KARŞILAŞTIRILMASI



Benzer belgeler
Regresyon ve Korelasyon Analizi. Regresyon Analizi

YER ÖLÇÜLERİ. Yer ölçüleri, verilerin merkezini veya yığılma noktasını belirleyen istatistiklerdir.

İki veri setinin yapısının karşılaştırılması

Tanımlayıcı İstatistikler

Tahmin Edicilerin ve Test Đstatistiklerinin Simülasyon ile Karşılaştırılması

ÖRNEKLEME YÖNTEMLERİ ve ÖRNEKLEM GENİŞLİĞİ

BEKLENEN DEĞER VE VARYANS

Quality Planning and Control

Zaman Skalasında Box-Cox Regresyon Yöntemi

Değişkenler Arasındaki İlişkiler Regresyon ve Korelasyon. Dr. Musa KILIÇ

Tanımlayıcı İstatistikler (Descriptive Statistics) Dr. Musa KILIÇ

ÖLÇÜM, ÖLÇÜM HATALARI ve ANLAMLI RAKAMLAR

= k. Aritmetik Ortalama. Tanımlayıcı İstatistikler TANIMLAYICI İSTATİSTİKLER. Sınıflanmış Seriler İçin Aritmetik Ortalama

Giriş. Değişkenlik Ölçüleri İSTATİSTİK I. Ders 5 Değişkenlik ve Asimetri Ölçüleri. Değişkenlik. X i ve Y i aşağıdaki gibi iki seri verilmiş olsun:

MERKEZİ EĞİLİM ÖLÇÜLERİ

ARAŞTIRMA MAKALESİ / RESEARCH ARTICLE

Sayısal Türev Sayısal İntegrasyon İnterpolasyon Ekstrapolasyon. Bölüm Üç

Đst201 Đstatistik Teorisi I

Doç. Dr. Mehmet AKSARAYLI

Gamma ve Weibull Dağılımları Arasında Kullback-Leibler Uzaklığına Dayalı Ayrım

PORTFÖY OPTİMİZASYONUNDA ORTALAMA MUTLAK SAPMA MODELİ VE MARKOWITZ MODELİNİN KULLANIMI VE İMKB VERİLERİNE UYGULANMASI

Parametrik Olmayan İstatistik Çözümlü Sorular - 2

Bir KANUN ve Bir TEOREM. Büyük Sayılar Kanunu

TALEP TAHMİNLERİ. Y.Doç.Dr. Alpagut YAVUZ

Orkun COŞKUNTUNCEL a Mersin Üniversitesi

BİR KARMAŞIK SİSTEMİN GÜVENİLİRLİK BLOK DİYAGRAMI İÇİN OLASILIK YOĞUNLUK FONKSİYONUNUN OLUŞTURULMASI VE İSTATİSTİKSEL GÜVENİLİRLİK HESAPLAMALARI*

TÜRKİYE ŞEKERPANCARI ÜRETİMİNDE FAKTÖR TALEP ANALİZİ ( ) (TRANSLOG MALİYET FONKSİYONU UYGULAMASI) Yaşar AKÇAY 1 Kemal ESENGÜN 2

Olabilirlik Oranı Yöntemine Dayalı, Yapısal Homojen Olmayan Varyans Testlerinin Piyasa Modeli İçin Karşılaştırılması

Lojistik Regresyonda Meydana Gelen Aşırı Yayılımın İncelenmesi

1. GAZLARIN DAVRANI I

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Ara Sınavı

ETKİN SINIR VE BETA KATSAYI KISITLI PORTFÖY SEÇİM MODELİ ÜZERİNE BİR UYGULAMA

BÖLÜM 3 YER ÖLÇÜLERİ. Doç.Dr. Suat ŞAHİNLER

DOGRUSAL REGRESYONDA SAGLAM TAHMiN EDiciLER VE BiR UYGULAMA Meral Candan ÇETiN1, Aynur ORSOY1

= İÇİNDEKİLER. E(X) = k Pascal (Negatif Binom) Dağılımı Hipergeometrik Dağılım N y=

TABAKALI ŞANS ÖRNEKLEME

Genelleştirilmiş Ortalama Fonksiyonu ve Bazı Önemli Eşitsizliklerin Öğretimi Üzerine

ĐÇI DEKILER 1. TEMEL ĐSTATĐSTĐK KAVRAMLAR VE OTASYO LAR 1

Tanımlayıcı İstatistikler

GÜÇLÜ BETA HESAPLAMALARI. Güray Küçükkocaoğlu-Arzdar Kiracı

İstatistik ve Olasılık

İSTATİSTİK 2. Tahmin Teorisi 07/03/2012 AYŞE S. ÇAĞLI.

AES S Kutusuna Benzer S Kutuları Üreten Simulatör

Korelasyon ve Regresyon

denklemini sağlayan tüm x kompleks sayılarını bulunuz. denklemini x = 64 = 2 i şeklinde yazabiliriz. Bu son kompleks sayıları için x = 2iy

Sağlam Ridge Regresyon Analizi ve Bir Uygulama

değerine bu matrisin bir girdisi(elemanı,bileşeni) denir. Bir sütundan (satırdan) oluşan bir matrise bir sütun (satır) matrisi denir.

EMEKLİLİK YATIRIM FONLARI DEĞERLENDİRMESİ AÇIKLAMA NOTLARI VE VARSAYIMLAR

HĐPERSTATĐK SĐSTEMLER

TEZ ONAYI Nur ÇELİK tarafıda hazırlaa ANOVA Modellerde Çarpık Dağılımlar Kullaılarak Dayaıklı İstatstksel Souç Çıkarımı ve Uygulamaları adlı tez çalış

KUKLA DEĞİŞKENLERİN T İSTATİSTİĞİ İLE AYKIRI GÖZLEMLER TESPİT EDİLEMEZ

WEİBULL DAĞILIMININ ÖLÇEK VE BİÇİM PARAMETRELERİ İÇİN İSTATİSTİKSEL TAHMİN YÖNTEMLERİNİN KARŞILAŞTIRILMASI

6. Uygulama. dx < olduğunda ( )

4/16/2013. Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

ARAŞTIRMA MAKALESİ /RESEARCH ARTICLE

ÇUKUROVA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Operasyonel Risk İleri Ölçüm Modelleri

Çok Aşamalı Sıralı Küme Örneklemesi Tasarımlarının Etkinlikleri Üzerine Bir Çalışma

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 9 Sayı: 1 s. 1-7 Ocak 2007 HİDROLİK PROBLEMLERİNİN ÇÖZÜMÜNDE TAŞIMA MATRİSİ YÖNTEMİ

Polinom İnterpolasyonu

Eğitimle İlgili Sapan Değer İçeren Veri Kümelerinde En Küçük Kareler ve Robust M Tahmin Edicilerin Karşılaştırılması

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

ISF404 SERMAYE PİYASALARI VE MENKUL KIYMETYÖNETİMİ

QUANTILE REGRESYON * Quantile Regression

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN BİLİMLERİ DERGİSİ

TAHMİNLEYİCİLERİN ÖZELLİKLERİ Sapmasızlık 3.2. Tutarlılık 3.3. Etkinlik minimum varyans 3.4. Aralık tahmini (güven aralığı)

İşlenmemiş veri: Sayılabilen yada ölçülebilen niceliklerin gözlemler sonucu elde edildiği hali ile derlendiği bilgiler.

T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

İSTATİSTİKSEL TAHMİNLEME VE

Ki- kare Bağımsızlık Testi

SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

İstatistik ve Olasılık

POISSON REGRESYON ANALİZİ

Tanımlayıcı İstatistikler

9. Ders. Đstatistikte Monte Carlo Çalışmaları

NİÇİN ÖRNEKLEME YAPILIR?

ALTERNATİF SİSTEMLERİN KARŞILAŞTIRILMASI

ALTERNATİF SİSTEMLERİN KARŞILAŞTIRILMASI

REGRESYON DENKLEMİNİN HESAPLANMASI Basit Doğrusal Regresyon Basit doğrusal regresyon modeli: .. + n gözlem için matris gösterimi,. olarak verilir.

Önceki bölümde özetlenen Taylor metodlarında yerel kesme hata mertebesinin yüksek oluşu istenilen bir özelliktir. Diğer taraftan

Servis Yönlendirmeli Sistemlerde Güven Yayılımı

Biyoistatistik (Ders 9: Korelasyon ve Regresyon Analizi)

Yüksek Mertebeden Sistemler İçin Ayrıştırma Temelli Bir Kontrol Yöntemi

Doğrusal Korelasyon ve Regresyon

ÜRETİM PLANLAMASINDA HEDEF PROGRAMLAMA VE BULANIK HEDEF PROGRAMLAMA YÖNTEMLERİNİN KARŞILAŞTIRILMASI

İSTATİSTİK. Doç. Dr. Suat ŞAHİNLER Arş.Gör. Özkan GÖRGÜLÜ

ÖRNEKLEME TEORİSİ VE TAHMİN TEORİSİ

5.1 Olasılık Tarihi Temel Olasılık Kavramları

Matematik olarak normal dağılım fonksiyonu. 1 exp X 2

X = 11433, Y = 45237,

Tanımlayıcı İstatistikler

İŞLETMELERDE DAĞITIM SİSTEMİ MALİYETLERİ MİNİMİZASYONU İÇİN ÇÖZÜM MODELİ: BİR FİRMA UYGULAMASI

) ( k = 0,1,2,... ) iterasyon formülü kullanılarak sabit

Örnek A. Benzer tipteki 40 güç kaynağının dayanma süreleri aşağıdaki gibidir. Genişletilmiş frekans tablosu oluşturunuz;

DEĞİŞİM ÖLÇÜLERİ 4. TAŞINMAZ GELİŞTİRME TEZSİZ YÜKSEK LİSANS PROGRAMI. Ünite: 4 DEĞİŞİM ÖLÇÜLERİ. Doç. Dr. Yüksel TERZİ İÇİNDEKİLER İÇİNDEKİLER

Regresyon Analizi Basit Do rusal Regresyon Analizi En Küçük Kareler Tekni i Varyans n(v 2 ) Tahmini Basit Do rusal Regresyonda Aral k Tahmini

Mühendislikte Olasılık, İstatistik, Risk ve Güvenilirlik Altay Gündüz. Mühendisler için İstatistik Prof. Dr. Mehmetçik Bayazıt, Prof. Dr.

YILLIK ÜCRETLİ İZİN YÖNETMELİĞİ ( tarihli ve sayılı Resmi Gazete'de yayımlanmıştır.) BİRİNCİ BÖLÜM Amaç, Kapsam ve Dayanak

Bir Alışveriş Merkezinde Hizmet Sektörü Đçin En Kısa Yol Problemi ile Bir Çözüm

Transkript:

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 EGESYON ANALİZİNDE KULLANILAN EN KÜÇÜK KAELE VE EN KÜÇÜK MEDYAN KAELE YÖNTEMLEİNİN KAŞILAŞTIILMASI Özlem GÜÜNLÜ ALMA, Özgül VUPA Dokuz Eylül Üverstes, Fe-Edebyat Fakültes, İstatstk Bölümü, İzmr emal: ozlem.gurulu@deu.edu.tr Alıış: 8 Ağustos 8, Kabul: Ekm 8 Özet: İstatstksel yötemler çersde yer ala regresyo çözümlemes e çok kullaıla yötemlerde brdr. Olası brçok regresyo yötemler dışıda, geellkle matematksel hesaplamalardak kolaylığıda dolayı, E Küçük Kareler yötem () e uygu tahm yötem olarak kullaılmaktadır. Ver aalz ve ekoometr uygulamalarıda kestrcler yaygı olarak terch edlmektedr. Buula brlkte kestrcler sapa değerlere karşı oldukça hassas olduğuda, ver kümes sapa değerler çermes durumuda verler hakkıda kestrcleryle yapılacak yorumlamalar geçersz ve yaıltıcı olablmektedr. Bu gb durumlarda sapa değerler ç öerle güçlü regresyo yötemler terch etmek, souçları güverllğ açısıda daha uygudur. İstatstksel çözümlemelerde kullaıla bu güçlü yötemlerde br de E Küçük Medya Kareler yötemdr (). Bu çalışmada, bezetm yoluyla oluşturula ver kümelerde yararlaılarak bast doğrusal regresyo model ç ve yötemlerde elde edle model kestrm değerler ( ˆβ, ˆβ, ˆσ, ) karşılaştırılmıştır. Aahtar kelmeler: E Küçük Kareler Yötem, E Küçük Medya Kareler Yötem, güçlü regresyo, sapa değer, bezetm çalışması THE COMPAISON OF LEAST SQUAES AND LEAST MEDIAN SQUAES ESTIMATION METHODS WHICH AE USED IN LINEA EGESSION ANALYSIS Abstract: egresso aalyss s oe of the most commoly used statstcal techques. Out of may possble regresso techques, the Least Squares Method (LSM) has bee geerally adopted because of tradto ad ease of computato. I data aalyss ad tred modellg applcatos the least squares (LS) estmator s wdely used ad LS regresso s, most cases, the method of choce. However, the crucal fact that the LS estmator s very sestve to outlyg observatos may lead to urelable results the regresso estmates ad, hece, to a msleadg terpretato of the data. To remedy ths problem, some statstcal techques have bee developed that are ot so easly affected by outlers. These are the robust methods, the results of whch rema trustworthy eve f a certa amout of data s outler. Oe of them s the least meda squares method whch s usg statstcal aalyss. I ths study, estmato of Least Square ad Least Meda Square has bee gve. LS ad LMS methods are appled ad compared o dfferret sample that ca be produced by smulato study. To fd whether there s mportat dfferece betwee methods are compared ther estmatos ( ˆβ, ˆβ, ˆσ, ). Key words: Least Squares, Least Meda of Squares, robust regresso, outler, smulato study 9

Ö. G. ALMA, Ö. VUPA GİİŞ regresyo yötem hata kareler toplamıı e küçük yapmayı amaçlaya statstksel br yötemdr. Bu yötem, gözlemlee verler ormallk, sabt varyaslılık, sapa değer çermeme gb bazı varsayımları sağladığı durumlarda güvelr tahmler elde edlmes sağlamaktadır (NETE vd. 996, FO 997). İstatstksel çözümlemelerde yötem, matematksel şlemlere e uygu tahm yötem olarak kullaılsa da varsayımları hlale karşı ola dayaıksızlığı edeyle eleştrlmekte ve alteratf olarak daha güçlü yötemler öerlmektedr (NETE vd. 996, WILCO 997, OTIZ vd. 6, MOHEBBI vd. 7). egreyo çözümlemesde varsayımları sağlamadığı durumlarda br de ver kümes sapa değer çermesdr. Sapa değer, br ver kümesde gözlemler çoğuu sahp olduğu dağılıma veya modele uymaya gözlemler olarak fade edleblr (BANETT & LEWIS 994). Sapa değer çere ver kümesde varsayımları sağlaamamasıda dolayı kurula regresyo modelde alıa souçlarda yaıltıcı olmaktadır (GOODAL 983, YAN 997). Bu edele regresyo çözümlemesde ver aalz oldukça öeml br yer tutmaktadır. Sapa değerler ver kümesde çıkartılması regresyo deklem tamame veya kısme değştreblmektedr. Bu edele büyük artık değerlere sahp ola gözlemler, regresyo çözümlemesde oldukça etkldrler. Böyle durumlarda sapa değerler tespt ve souçları güverllğ ç güçlü regresyo yötemler terch etmek daha uygudur (OUSSEUW & LEOY 987). Bu güçlü yötemlerde br de yötemdr. Bu çalışmada, ve yötemler parametre kestrmler üzerdek etklğ celemştr. Bu doğrultuda, bast doğrusal regresyo modelde bağımlı değşke farklı oralarda sapa değerler çerdğ küçük öreklemler oluşturulmuştur. Bu öreklemlere at regresyo modelde elde edle parametre kestrm değerler karşılaştırılarak, ve yötemler etklğ araştırılmıştır. MATEYAL VE METOT egresyo çözümlemes, aralarıda sebep-souç lşks bulua k veya daha fazla değşke arasıdak lşky belrlemek ve bu lşky kullaarak o kou le lgl tahmler ya da kestrmler yapablmek amacıyla kullaıla statstksel br yötemdr. Bu çözümleme yötemde k veya daha fazla değşke arasıdak lşk açıklamak ç matematksel br model kurulur ve bu model regresyo model olarak adladırılır (BIKES & DODGE 993). İstatstksel açıda model kuruldukta sora o model geçerllğ araştırmak regresyo çözümlemes öeml br parçasıdır. Kestrle model gerçek modele e kadar yaklaştığıı belrleyeblmek ç, kullaıla yötem regresyo çözümlemes varsayımlarıı sağlayıp sağlamadığıı kotrolüü yapılması gerekmektedr. Eğer kurula regresyo model verye uygu değlse alıa souçlar da yaıltıcı olacaktır (WILCO 997). Y bağımlı değşke, bağımsız değşke, β bu değşke blmeye parametres ve ε gözleemeye hata termler göstermek üzere ktle ç bast doğrusal regresyo (BD) deklem

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 Y β + β + ε,,,..., () şeklde yazılır. BD çözümlemesde buluacak ola regresyo deklemler kestrm amaçlı kullaılablmes ç; hata termler ( ε Y - Ŷ ) rassal olup ormal dağılım göstermes, hataları beklee değer ve varyaslarıı da sabt olup σ e eşt olması, hataları brbrde bağımsız olması (cov( ε,ε j) ), hata termler le bağımlı değşke arasıda korelasyou olmaması gb bazı varsayımları sağlaması gerekmektedr (FO 997). Bu varsayımlarda brs sağlaamaması durumuda kestrcler, gözlemler ve ö kestrcler üzerdek kararlı ve küçük varyaslı olma özellğ kaybederek yalı, tutarsız veya etksz olacaktır. EN KÜÇÜK KAELE YÖNTEMİ Güümüzde β ve β parametreler tahm ç kullaıla e yaygı yötemlerde brs yötemdr. Ktle regresyo deklemde yer ala β ve β parametreler öreklemde elde edle kestrmler βˆ ve βˆ olarak ele alıdığıda, tek değşkel regresyo doğrusuu deklem Ŷ βˆ + βˆ,,,..., () bçmdedr. Deklemde yer ala βˆ ve βˆ termler değerler bulmak ç kullaıla yötem temel, toplam sapmaları kareler toplamıı e küçük yapacak değerler buluması oluşturmaktadır. Hata termler, gözlemlee Y değerler le beklee Ŷ değerler arasıdak farklar oluşturmaktadır (YAN 997). εˆ Y - Ŷ (3) 3. eştlkte verle fade le hesaplaa hata termler poztf, egatf veya sıfır değere sahp olurke bu farkları toplamı εˆ (Y - Ŷ ) olur. yötem, β ve β parametreler kestrmler ola ˆβ ve ˆβ ı farkıı e küçük yapacak bçmde aşağıdak gb belrler e kücük(y - Ŷ ) e kücük εˆ. (5) Burada regresyo katsayılarıı tahmler elde edeblmek ç 6. eştlkte βˆ ve βˆ ya göre kısm türevler alııp sıfıra eştledğde 7. ve 8. eştlklerdek gb I. ve II. ormal eştlkler elde edlr. Bu eştlkler üzerde gerekl çözümlemeler yapıldığıda (4)

Ö. G. ALMA, Ö. VUPA β ve β parametreler kestrmler ola ˆβ ve ˆβ değerler buluableceğ eştlkler 9 ve da k gb elde edlr. ( ( βˆ + βˆ ) Y L (6) Y βˆ + βˆ (7) Y βˆ + βˆ (8) βˆ, βˆ ve regresyo belrtme katsayısıı hesaplaması se aşağıdak gbdr. βˆ (9) ( ) βˆ o Y Y +βˆ Y Y βˆ ( ŷ - y) ( y - y) ( )(Y Y) () () EN KÜÇÜK MEDYAN KAELE YÖNTEMİ Varsayımları sağlamadığı durumlarda güçlü regresyo tahm edcler yöteme alteratf olarak kullaılablmektedr. Güçlü regresyo yötemler çersde e çok kullaıla tahm yötemlerde brdr (EICKSON vd. 6). ousseeuw 984 yılıda yapmış olduğu çalışmasıda brçok örekle gösterdğ gb, ver kümesde br tae sapa değer buluması durumuda ble bu sapa değer, dğer bütü verlerde elde edle blgye egel olmakta ve statstkler güvelmez yapmaya başlamaktadır. DAVIES & GATHE (993) tarafıda gelştrle, ortalama stadart sapma ve aşırı studet sapmaya bağlı ola Extreme Studetzed Devate test, ver kümesde sadece br tae sapa değer olduğu durumlarda kullaılır. Acak ver kümes brde fazla sapa değer çerdğ durumlarda bu değerler baze brbrler maskeleyeblmekte ve hatta bu değerler klask tahm yötemlerde güvelr verler ble sapa değer olarak görümese sebep olablmektedr. yötem ver kümes %5 ye kadar sapa değer çerdğ durumlarda da y tahm değerler vere güçlü br regresyo yötem olarak kullaılmaktadır (OUSSEUW & LEOY 987). Acak yötem artıkları medya değer e küçük yapmayı amaçlarke gerye

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 kala ( ) adet gözlem dkkate almaz. Buda dolayı öreklem büyüklüğü arttıkça regresyo katsayılarıı kestrmde yötem yötem kadar etkl olmamaya başlar (YAN 997). WALD (94), k değşkel br öreklem kümesde x gözlem değerler medyaıı temel alarak, bu gözlem değerler serpme dyagramıda ver set sol ve sağ bölge olmak üzere kye ayıra bast br yötem öermştr. Ayrıla her bölge x ve y gözlem değerler ortalaması (( xsag, ysag ),(xsol, ysol )) şeklde gösterlrke bu ortalamaları hesaplaması yalızca o bölgeye at x ve y gözlem değerler kullaılarak elde edlr. NAI & SHIVASTAVA (94) tarafıda öerle yötemde se lk olarak k değşkel ver setdek x ve y değşkeler ked çlerde sıralaır. Daha sora sıralaa bu değşkeler (x x x ), brbre yakı ola değerler ayı parçada olacak şeklde üç bölgeye ayrılır. So olarak WALD (94) yötemde olduğu gb ayrıla her bölge x ve y gözlem değerler ortalaması (( xsag, ysag ),(xsol, ysol )), yalızca o bölgeye at x ve y gözlem değerler x sol x + x +... + x y + y +... + y sol sol y sol () sol sol x sag x -sag+ + x sag +... + x y sag y -sag+ + y sag +... + y (3) fadeleryle hesaplaır. Eştlklerde, sol : lk gruba at gözlem sayılarıı, sag : kc gruba at gözlem sayılarıı göstermektedr. Gerye kala (- sol - sag ) adet gözlem ver kümesde atılır. Burada brc ve kc gruba at gözlem sayıları (/3) değere yaklaşacak şeklde br tamsayı değer olup her k gruptak gözlem sayıları da brbre eşttr. Bu eştlk sol sag olacak şeklde gösterlr. yötem uyguladığı bast doğrusal regresyoa at parametre kestrmler βˆ y - βˆ x y - βˆ (4) sol sol sag xsag ysag - ysol βˆ (5) x - x sag sol bçmde hesaplaır. OUSSEEUW (984) tahm 5. eştlkte verle amaç foksyouda Σ yere medya koymak olarak taımlar. e kücük medya[y - Ŷ ] βˆ Acak 6. eştlkte verle amaç foksyouda aaltk br çözüm elde etmek oldukça güç olduğuda, β parametre tahmler değerler blgsayar terasyoları le buluablr. (6) 3

Ö. G. ALMA, Ö. VUPA OUSSEEUW (984), OUSSEEUW & LEOY (987), EDELSBUNNE & SOUVAINE (99), OLSON (997), MOUNT vd. (7) parametre tahmler elde edlmes sağlaya terasyolar ç çeştl algortmalar öermşlerdr. Yaygı olarak kullaıla OUSSEEUW (984) algortmasıda, elemalı br ver kümes tüm mümkü p elemalı alt kümelere yötem uygulaır ve her br ç p artıkları medya değer hesaplaır. Bu medya değerler çersde e küçük medya değere sahp ola alt küme tahmler tahm olarak kabul edlr. Küçük ver kümeler ç tahmler kes değerler hesaplamak bu şeklde mümkü olsa da, büyük ver kümelerde mümkü ola tüm altkümeler taraması ve uygulaması şlem yükü açısıda oldukça zor olacaktır. Bu durumda ver çersde bazı altkümeler rastlatısal olarak çeklmes ve amaç foksyouu bu altkümelerde uygulaması düşüüleblr. OUSSEEUW & LEOY (987), belrl kısıtlar altıda verde rastlatısal olarak çeklecek e az br altküme stele soucu verme olasılığıı e yakı olduğuu spatlamıştır. Bua göre br ver kümesde p elemalı k tae altküme seçtğmzde p tae aşırı olmaya değer çere e az br altkümeye rastlama olasılığıı (/p) çok büyük değerler ç aşağıdak fadeye eşt olacağıı belrtmştr. P (7) p k sapadeger _cermeye -[- (- ε) ] 7. eştlkte ver kümes krllk oraı ε le gösterlmektedr. Bu fade yardımıyla krleme oraıı ε olduğu br verde p brmlk k tae alt kümeler çektğmzde bularda e az br sapa değer çermeye gözlemlerde oluşma olasılığı hesaplaır. Krleme oraıı ε %5 olduğu br verde 5 brmlk alt kümeler çektğmzde bularda e az br sapa değer çermeye gözlemlerde oluşma olasılığıı -[- (- ε ) p ] k.95 olması ç çekmemz gereke 5 brmlk alt kümeler sayısı.98 dr. yötem ç stadart sapma kestrm ve regresyo model açıklayıcılık katsayısı aşağıdak gb fade edleblr. s, gözlem sayısı ve açıklayıcı değşke sayısıa (: gözlem sayısı, m: açıklayıcı değşke sayısı) bağlı br düzeltme çarpaıyla çarpılmasıda elde edlr. s 5,486 + medσ (8) - m,..., s kestrmyle stadartlaştırılmış gözlem w ağırlığıı taımlamada kullaılır. r / s artıkları hesaplaır ve aşağıdak gb. w, r / s.5 (9), d. d regresyou ç stadart sapma kestrm o lu eştlkte verle fade le hesaplaır. 4

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 wσ σ * () w m Burada σ *, %5 krllk oraıa sahp br ver kümes ç stadart sapma kestrm gösterr. regresyou ç bağımlı değşkedek değşm e kadarıı model tarafıda açıkladığıı taımlaya belrleyclk katsayısı se regresyo model sabt term çerdğ ve çermedğ duruma göre aşağıdak fadelerde hesaplamaktadır. Sabt Terml egresyo Model med r mad(y ) Sabt Term Olmaya egresyo Model med r med(y ) () Burada madmedyaı mutlak sapması (meda absolute devato) kısaltması olup mad(y ) y med(y ) BULGULA le hesaplaır. Bast doğrusal regresyo çözümlemesde, küçük öreklemler üzerde ve yötemler etklğ karşılaştırmak ç yapıla bezetm çalışmasıda kullaıla kestrcler elde edlmes bazı koşullar altıda gerçekleştrlmştr. Çalışmada, bast doğrusal regresyo model Y + + ε olarak seçlmş olup, bağımlı ve bağımsız değşke le hata termler bezetm çalışması yapılarak türetlmştr. Başlagıçta sapa değer çermeye bağımlı değşke Y değerler, bağımsız değke N~(7, ) parametrel ormal dağılıma, hata termler se stadart ormal dağılıma (ε ~ N(,)), sahp olacak şeklde, adet Mtab programı kullaılarak türetlmştr. Böylece sapa değer çermeye bağımlı değşke Y ormal dağılıma sahp olacak şeklde elde edlmştr (Y ~ N(3, 4 )). OUSSEEUW & LEOY (987) br ver kümes çermş olduğu sapa değer yüzdese bağlı olarak çeklecek ola öreklem büyüklüğüe göre seçlecek ola öreklem sayısıı belrlemş ve bu fade 7. eştlkte verlmşt. Bu eştlk dkkate alıarak ver kümes %5 ve %5 oraıda sapa değer çerdğ öreklem sayıları; 5, ve 5 brmlk öreklem büyüklüklere bağlı olarak belrlemş olup bu değerler Tablo de verlmştr. 5

Ö. G. ALMA, Ö. VUPA Tablo. %5 ve %5 lk sapa değer çere öreklemlerde brm sayısıa göre çeklecek öreklem sayısı ve bua bağlı olarak elde edle sapa değer sayıları Öreklem Brm Sayısı Sapa Değer Yüzdes %5 %5 Çeklecek Öreklem Sayısı Sapa Değer Sayısı Çeklecek Öreklem Sayısı Sapa Değer Sayısı 5 5 4 5 3 5 33 3 4 Tablo dek değerler dkkate alıarak her br öreklem çermes gereke sapa değer sayısıı belrlemes le bağımlı değşke, belrlee gözlem sayılarıa bağlı olarak krletlmştr. Krletme şlem ç türetlecek ola sapa değerler bağımlı değşke * ortalama değerde e az 3 σ uzaklıkta olacak şeklde oluşturulmuştur. Bu amaçla Y sapa değerler, U~(9,33) parametrel Tekdüze dağılımda gelecek şeklde türetlmştr. Bağımsız değşke, bağımlı değşke Y ve sapa değer çere Y * hstogramları Şekl de verlmştr. Şekl., Y ve Y * Değerler Hstogramları ve yötemler karşılaştırılması ç gerekl verler türetldkte sora, yötem Mtab programı, yötem se SYSTAT programı kullaılarak uygulamıştır. Her k yötem soucuda da elde edle parametre kestrmler ( ˆβ, ˆβ ), model varyası ( ˆ σ ) ve belrtme katsayısı değerler ( ) arasıda alamlı br farkı olup olmadığıı karşılaştırmak ç bağımlı t test yapılmıştır. Bu testlere at hpotezler Tablo de belrtldğ gbdr. Tablo. ve yötemler parametre kestrcler karşılaştırmak ç kurula hpotezler Hİpotezler H : β. β. H : β. β. H : β. β. H : β. β. H H : σ σ : σ σ H : H : 6

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 Karşılaştırma soucuda elde edle bağımlı t test souçları Tablo 3 de verlmştr. Tablo 3. ve yötemler parametre kestrmler karşılaştıra bağımlı t test souçları Sapa Değer Yüzdes Öreklem Brm Sayısı % 5 % 5 t p-değer t p-değer ˆβ 5 -,84,45,36,75,,65,7,7 5,,989,6,93 ˆβ 5,7,5 -,7,945 -,67,8 -,6,4 5,8,48 -,,9 ˆσ 5,58,95 3,4,3 8,79, 6,83, 5 8,66, 8,7, 5-8,7, -8,63, -,6, -4,84, 5-7,53, -,3, Tablo 3 de verle bağımlı t test souçlarıa göre, bağımlı değşke %5 ve %5 oraıda sapa değer çermes durumuda ve yötemler parametre kestrmler arasıda alamlı br fark buluamamıştır. Acak model stadart hatası le model açıklayıcılık yüzdeler arasıda alamlı br farkı olduğu test souçlarıda gözlemlemştr. TATIŞMA VE SONUÇ Parametre kestrm ç kullaıla yötem; hataları ormal dağılması, sabt varyaslılık, bağımsızlık varsayımları le değşkeler hatasız br şeklde ölçüldüğü varsayımlarıa dayamaktadır. Acak gerçek hayatta celeecek ola ver kümes ç bu varsayımları her zama sağlaması mümkü olmayablr. Özellkle de verler elde edlrke veya kaydedlrke meydaa gele hatalar, ver grş hatası, skorlama hatası gb edelerle ver kümelerde dğer verlerde farklı gözlem değerlere döüşür. Döüşe bu gözlemler lteratürde sapa değerler olarak adladırılır. Ver kümes sapa değer çermes durumuda uygulaacak ola yötem daha güvelr souçlar 7

Ö. G. ALMA, Ö. VUPA vermes ç bu verler etkler gderlmes gerekmektedr. yötem ver kümes sapa değer çermes durumuda yöteme göre daha güvelr souçlar vere güçlü br yötemdr. Bu çalışmada her k yötem etklğ araştırılması ç küçük öreklemler üzerde br bezetm çalışması yapılmıştır. Yapıla bezetm çalışmasıda bağımlı değşke %5 ve %5 oraıda sapa değer çerdğ durumlarda, kurula Y + + ε regresyo modelde ve yötemler parametre kestrmler karşılaştırılmıştır. α.5 alam düzeyde yapıla parametre kestrmler karşılaştırmalarıı bağımlı t test souçları Tablo 3 de verlmştr. Elde edle bu souçlara göre: βˆ : ç bağımlı değşke %5 oraıda sapa değer çerdğ durumda öreklem büyüklüğüü 5, ve 5 brm olduğu durumlarda her k yötem parametre kestrm değerler arasıda alamlı br fark görülmemştr. Bezer şeklde; bağımlı değşke %5 oraıda sapa değer çermes durumuda öreklem büyüklüğü 5 ve 5 ç her k yötem parametre kestrm değerler arasıda alamlı br fark görülmemştr. βˆ : ç bağımlı değşke sapa değer yüzdes ve öreklem büyüklüğüü parametre kestrmler üzerde her k yötem ç alamlı br fark oluşturmadığı görülmüştür. ˆσ : regresyo model varyas karşılaştırılmaları ç kurula H : σ ve H : σ hpotezlere göre bağımlı σ σ değşke %5 ve %5 oraıda sapa değer çermes durumuda öreklem büyüklüğü 5, ve 5 brm ç her k yötem arasıda varyas kestrm değerler arasıda alamlı br fark olup, geel olarak yötemde elde edle model varyas değer yötemde elde edle değere göre daha büyük olduğu görülmektedr. : belrtme katsayısı ç kurula H ve : H : hpotezlere göre bağımlı değşke %5 ve %5 oraıda sapa değer çerdğ durumda öreklem büyüklüğüü 5, ve 5 brm ç her k yötem arasıda belrtme katsayılarıı değerler arasıda alamlı br fark buluamamış olup, geel olarak yötemde elde edle model belrtme katsayısı değerler yöteme göre daha büyük olduğu görülmektedr. Küçük öreklemler ç ve yötemler karşılaştırmak amacıyla yapıla bu çalışmada geel olarak βˆ ve βˆ arasıda alamlı br fark buluamazke, regresyo modeller daha küçük varyasa sahp olduğu ve model açıklayıcılığıı göstere belrtme katsayısı değerlerde daha büyük olduğu görülmüştür. Belrtme katsayılarıda elde edle bu alamlı farklar edeyle ver kümes sapa değer çermes durumlarıda küçük öreklemler ç parametre kestrm değerler model daha y açıkladığı söyleeblr. Souç olarak hata termler ormal dağılmadığı veya bağımlı değşke sapa değer çermes durumlarıda küçük öreklemler ç regresyo modelde, yötem yöteme göre daha az etkledğ belrteblr ve parametre kestrm değerler regresyo model daha y açıkladığıı söyleyeblrz. 8

FEN DEGİSİ (E-DEGİ). 8, 3() 9-9 KAYNAKLA BANETT V, LEWIS T, 994. Outlers Statstcal Data. Joh Wley Sos, Caada, pp.7 5. BAETO H,. A Itroducto to Least Meda of Squares, www.wabash.edu/ecoexcel BIKES D, DODGE Y, 993. Alteratve Methods of egresso. Joh Wley Sos, New York, pp.8 4. DAVIES PL, GATHE U, 993. The Idetfcato of Multple Outlers. Joural of Statstcal Plag ad Iferece,, 65 78. EDELSBUNNE H, SOUVANIE L, 99. Computg Least Meda of Squares egresso Les ad Guded Topologcal Sweep. Joural of the Amerca Statstcal Assocato, 85(49), 5 9. EICKSON J, HA-PELED S, MOUNT DM, 6. O the Least Meda Square Problem. Dscrete Comptutatoal Geometry. 36, 593 67. FO J, 997. Appled egresso Aalyss: Lear Models ad elated Methods. Sage Publcato, USA, pp.3 4. GOODAL C, 983. Examg esduals. I: HOAGLIN D & TUKEY J (Eds.) Uderstadg obust ad Exploratory Data Aalyss. Joh Wley Sos, Caada, pp. 4. KLEINBAUM, KUPPE, MULLE, ad NIZAM, 998. Appled egresso Aalyss ad Other Multvarate Methods. Duxbury, USA. MOHEBBI M, NOUIJELYANI K, ZEAATI H, 7. A Smulato Study o obust Alteratves of Least Squares egresso. Joural of Appled Sceces, 7(), 3469 3476. MONTGOMEY D, HINES W, 99. Probablty ad Statstcs Egeerg ad Maagemet Scece, Joh Wley Sos, Caada. MOUNT DM, NETANYAHU N, OMANIK K, SILVEMAN, WU AY, 7. A Pratcal Approxmato Algorthm for The LMS Le Estmator. Computatoal Statstcs ad Data Aalyss, 5, 46 486. NAI K, SHIVASTAVA MP, 94. O a Smple Method of Curve Fttg. Sakhaya, 6, 3. NETE J, KUTNE M, NACHTSHEIM C, ad WASSEMAN W, 996. Appled Leear egresso Models, Irw, USA. OLSON CF, 997. A Approxmato Algorthm for Least Meda of Squares egresso. Iformato Processg Letters, 63, 37 4. OTIZ M, SAABIA L, ad HEEO A, 6. obust egresso Techques: A Useful Alteratve for the Detecto Data Chemcal Aalyss. Talata, 7, 499 5. OUSSEEUW JP, 984. Least Meda of Squares egresso. Joural of the Amerca Statstcal Assocato, 79(388), 87 88. OUSSEEUW P, LEOY A, 987. obust egresso ad Outler Detecto. Joh Wley Sos, Caada, pp. 84 43. YAN TP, 997. Moder egresso Methods. Joh Wley Sos, New York. WALD A, 94. The Fttg of Straght Les f Both Varables are Subject to Error. Aals of Mathematcal Statstc,, 8 3. WILCO, 997. Itroducto to obust estmato ad Hypothess Testg. Academc Press. Sa Dego. 9