İstabul Tcaret Üverstes Fe Blmler Dergs Yıl:4 Sayı:7 Bahar 005/ s. 59-7 POISSON REGRESYON ANALİZİ Özlem DENİZ * ÖZET Herhag br olayı belrlee br süreç çersde yaıla deemeler soucuda meydaa gelme sayısı, sayma verler olarak fade edleblr. Sayma ver modelde ble lk gelşmeler aktueryal blmler, byostatstk ve demografde gözlemştr. So yıllarda bu modeller ktsat, oltk blmler ve sosyolojde de sıkça kullaılmaya başlamıştır. Sayma ver modeller özel br regresyo türüdür. Bu modeller ekoometrcler çok fazla dkkat çekmş ve mkro ekoomde oldukça fazla kullaılmıştır. Bldğ gb, verler sürekl olduğu durumlarda doğrusal regresyo aalz kullaılablmektedr. Acak aalzlerde kullaılacak verler her zama sürekl halde bulumayablr. Bu gb durumlarda ya; verler keskl olması durumuda da doğrusal regresyo modeller kullaılarak yaılacak aalzler etksz, tutarsız ve çelşkl souçlar verecektr. Bu sebete dolayı keskl verler ç tüm koşullar sağladığıda kulaılablecek e etk model Posso regresyo modellerdr. Aahtar Kelmeler: Posso Regresyo, Yaay E Çok Olablrlk Kestrm, Artık Aalz POISSON REGRESSION ANALYSIS ABSTRACT The occurace umber (frequecy) of a evet tested a determed rogress s called coutg data. The frst mrovemets coutg data model were see actuaral sceces, bostatstcs ad demograhy. Coutg data models are a secfc kd of regresso. As we all kow, lear regresso ca be used where the data s cotuous. However the data ca ot always be cotuous. I these crcumstaces where the data s dscotuous, the alcato of lear regresso leads us to effectve, cosstet ad cotradctory results. Therefore, whe all the codtos for dscotuous data are met, Posso regresso models are the most effectve model. Keywords: Posso Regresso, Artfcal Maxmum Lkelhood Predcto, Resdual Aalyss * İstabul Tcaret Üverstes, Fe Edebyat Fakültes, İstatstk Bölümü, odez@tcu.edu.tr 59
Özlem Dez. GİRİŞ Herhag br olayı belrlee br süreç çersde yaıla deemeler soucuda meydaa gelme sayısı, sayma verler olarak fade edleblr. Sayma ver modelde ble lk gelşmeler aktueryal blmler, byostatstk ve demografde gözlemştr. So yıllarda bu modeller ktsat, oltk blmler ve sosyolojde de sıkça kullaılmaya başlamıştır. Sayma ver modeller özel br regresyo türüdür. Bu modeller ekoometrcler çok fazla dkkat çekmş ve mkro ekoomde oldukça fazla kullaılmıştır. Sayma verler aalz ç lk sorula soru özel yötemler gerekllğ veya doğrusal regresyo model yeterl olu olmadığıdır. Sayma verlerde oluşa değşkeler ç sürekl ve doğrusal regresyo model uygulaableceğ düşüülür. Acak bu verlere doğrusal regresyo model uygulaması halde souçlar, etksz ve tutarsız olduğu gb çelşkl tahmler yaılablr. Sayma souçlarıı özellkler kes olarak vere brçok model vardır. Acak Posso regresyo brçok aalz başlagıç oktası olarak düşüülür. Posso regresyo model sayma verler ç e sık kullaıla ve e bast ola yötemdr. Bu model le sayımı olasılığı, Posso dağılımı le belrler. Bu model belrg özellğ, soucu koşullu ortalamasıı koşullu varyasıa eşt olmasıdır. Acak uygulamada baze koşullu varyas, koşullu ortalama değer aşablr. İşte bu tür durumlarda, egatf bom regresyo modeller kullaılır. Bu çalışmada, koşullu ortalamaı koşullu varyasa eşt olduğu durumda kullaıla Posso regresyo aalz, teork olarak açıklamaya çalışılmıştır.. POISSON REGRESYON SÜRECİ Bağımlı değşke 0,,, 3,... gb keskl değer aldığı fakat kategork olmadığı durumlar vardır. Bu tür değşkelere, doğalgaz boruları üzerde kazaları sayısı, verle atetler sayısı, yazlıklarda çıka yagıları sayısı gb örekler gösterleblr. Keskl ve kategork olmaya, adr olaylarla lşkl bağımlı değşkel model, bazı varsayımlar altıda Posso regresyo model olarak adladırılır. Posso regresyo model daha çok sayma verler aalz etmek ç kullaılmaktadır (Akı, 00). 60
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/ Posso regresyo modelde regresyo sürecdek geel kestrmler e çok olablrlk yötem le gerçekleştrlmektedr. Posso e çok olablrlk kestrm ç; ) Koşullu ortalamaı doğru taımlamasıda bağımlılık şartı sağlamalıdır. Ayrıca bağımlı değşke y Posso dağılması gerekldr. ) E çok olablrlk stadart hataları ve t statstkler kullaarak hesalaa statstksel souçlar, hem koşullu ortalama, hem varyası doğru taımlamasıı gerektrmektedr. Burada stee koşul, koşullu varyas ve ortalamaı eşt olmasıdır. 3) Verler ç koşullu varyas ve koşullu ortalamaı eşt olmaması durumuda, e çok olablrlk yötem uygulaması le elde edlmş statstksel souçlar, koşullu ortalamaı doğru taımladığıı sat edldğ durumlarda geçerl ve doğrudur. 4) Verler ç koşullu varyas ve ortalamaı eşt olmaması durumuda, Posso e çok olablrlk tahm edcsde daha etk tahm edcler kullaılablr... Posso Regresyo Sürecde Katsayıları Kestrm Posso regresyo sürecde bağımlı değşke y dağılımıa göre, βˆ kestrcler hesalama yötemler değşklk göstermektedr. E çok olablrlk kestrm yötem (MLE), doğrusal ve karesel varyas foksyoları le egatf bom, yaay e çok olablrlk (PMLE) ve geelleştrlmş doğrusal modeller, bu yötemlerde e çok ble ve e sık kullaılalarıdır.... Posso E Çok Olablrlk Kestrm Yötem x ye bağlı y ç Posso regresyo model; ( y x ) µ y µ e f =, y = 0,,,... () y! ve ortalama arametres; E y x = = ex( x β () [ ] ) µ şeklde gösterlr ve üstel ortalama foksyou olarak fade edlr. İstatstk lteratürüde bu foksyo ayrıca; log-doğrusal foksyo olarak da fade edlr. Çükü koşullu ortalamaı logartması, arametreler doğrusal olarak vermektedr.. l E [ y x ] = µ = x β (3) 6
Özlem Dez Bağımsız gözlemler ç, log-olablrlk foksyou; Bua bağlı olarak Posso MLE fadesde buluur. ( ) = { y x β ex( x β ) l y! } l L β (4) = βˆ değer; ( y ( x ) = ex β x = 0 (5) βˆ değer hesalamasıda kullaıla stadart yötem, Fsher terasyo yötemdr. Uygulamada geellkle 0 veya daha az terasyo yamak yeterl olmaktadır. Verle blgler uygulaa modeller doğrultusuda katsayıları kestrm ç; ve varyas değer ç; souçlarıa ulaşılır. a [ β, V [ ˆ β ] ML ˆ β ~ N (6) [ ˆ ] V ML β = µ x x (7) =... Yaay E Çok Olablrlk Kestrcs Bağımlı değşke y Posso dağılıma uyguluk göstermemes durumuda ble, Posso regresyo yardımıyla hesalamış βˆ ler kullaılablr. Bu amaçla yaay e çok olablrlk kestrcs olarak adladırıla kestrcler kullaılır. Bu termoloj, Posso modeldek Posso e çok olablrlk kestrcs, brc derecede koşul taımıyla elde edlmes gereke kestrc yere kullaılması alamıa gelr. Ama bu kestrc, Posso e çok olablrlk kestrcsdek gb, Posso dağılımıa uyguluk göstermes gerektrmez. Bu açıklamalara bağlı olarak, Posso ç yaay e çok olablrlk kestrcs varyası, βˆ ; 6
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/ olarak fade edldğ; şeklde dağılır. ( ˆ ) = µ x x w x x = = = V PML β µ x x (8) [ β, ( ˆ β )] ˆ β ~ N (9) ω değer, V PML y ç koşullu varyas değer olduğu blmektedr...3. Geelleştrlmş Doğrusal Modeller Kestrm Yötem E y x = = ex( x β ortalama foksyoua sah Posso ç, bu model [ ] ) µ kaok bağ foksyou ola Posso yoğuluk foksyou; x ( ) ( ) βy ex x β f y x = ex + c( y, φ ) (0) φ şeklde taımlaır. Bu modelde c ( y,φ ), ormalleştrme katsayısıdır. φ değer doğrusal varyas foksyou le egatf bom dağılımı yardımıyla hesalamış ola V = φµ foksyouda hesalamaktadır. [ y ] Geelleştrlmş doğrusal modeller yardımıyla hesalaa Posso kestrcs brc derecede koşullar le; ( y ex( x β ) x = 0 φ = deklemde hesalamaktadır (Camero ve Trved, 998). βˆ GLM,.. Regresyo Souçlarıı Kullaılması Br öcek bölümde kullaıla yötemler yardımıyla hesalaa katsayılar doğru br şeklde yorumlamadığı sürece model ç hçbr alam fade etmemektedr. Ayrıca hesalaa bu değerler yardımı le bağımlı değşke y değerler ç de kestrmler yaılmalıdır. Bu bölümde regresyo katsayılarıı yorumlaması ve bağımlı değşke kestrm koularıa değlecektr.... Katsayıları Yorumlaması Regresyo katsayılarıı yorumlaması, regresyo sürecdek öeml koularda brdr. Öreğ; 0, olmasıı e alama geldğ açıklaması βˆ j gerekmektedr. Doğrusal regresyo modelde beklee değer; [ ] β () E y x = x şeklde 63
Özlem Dez hesalamaktaydı. Bu fadedek β değer yalız bırakılır ve E[ y x] x j = β j şlem gerçekleştrlrse; ˆ β j = 0, ç, j c bağımsız değşkedek brmlk değşm, koşullu ortalamayı 0, brm artırmaktadır yorumu yaılır. Acak Posso regresyo model üstel br yaı taşıdığı ç katsayıları yorumlaması bu kadar kolay olmayacaktır. Üstel koşullu ortalama; [ y x] ex( x β ) E = () şeklde gösterlmekteyd. x j değer ç j c bağımsız değşke olduğu düşüülsü. Bezer şlemler tekrarlaması soucuda; E [ y x] x j = β ex x soucua ulaşılır. Öreğ, eğer ˆ = 0, j j ( β ) β ve ex ( ) β =, 5 (3) x ˆ se; j c bağımsız değşkedek br brmlk değşm, y bağımlı değşkede 0,5 brmlk artışa ede olacağı, eştlkte hesalaablmektedr (McCullagh ve Nelder, 983).... Kestrlmş Değer Hesalaması Gözlem değerlerde oluşa x bağımsız değşke tahm değer de = E [ y x = ] µ olarak gösterls. x x, koşullu ortalamaı Taımlaa fadeler doğrultusuda üstel koşullu ortalama foksyou ç, ortalamaı tahm; şeklde hesalaır. Bu değer %95 güve aralığı ç; ( β ) ˆ µ = ex ˆ (4) x [ β ] x µ ˆ µ µ z ˆ µ x V ˆ (5) 0,5 64
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/ aralığıda yer almaktadır. βˆ kestrcs; ˆ β ~ [ β, V [ ˆ β ] N olduğu blmektedr. Daha dar güve aralıklarıda β ç daha kes tahmler yaılablmektedr. Bağımlı değşke y ç, ortalamaı tahm yere gerçek değer tahm steleblr. Gözlemler x = x olarak taıtıldığıda, üstel koşullu ortalama formülü olarak hesalaa tahmler; y ˆ = ex βˆ (6) eştlğde elde edlr. x ( ) Posso model ç varyas foksyou dkkate alıırsa, ( µ, ˆ α ) ω ˆ olarak fade edlr. Bu durumda y ç; y y ( ˆ µ, ˆ α ) + ˆ µ x V [ ˆ β ] x kestrle varyası yˆ ± z ω (7) aralığıda olduğu söyleeblr (a.g.e., Camero ve Trverd, 998)..3. Artıkları Aalz Artıklar, bağımlı değşke ç gerçek değerler le kestrlmş değerler arasıdak farka eşttr. Artıklar uç değerler belrlemede, zayıf uyum göstere gözlemler kestreblmekte, etk gözlemler test etmede ve etk gözlemler seçeblmede kullaılablrler. Doğrusal modellerde artıklar, gerçek ve kestrle değerler arasıdak fark olarak fade edlmektedr. Acak doğrusal olmaya modeller ç artık taımı br tae değldr. Posso ve dğer geelleştrlmş doğrusal modeller ç artıklar farklı yollarla ve farklı adlarla hesalaır. Geel alamda artıklar ( ) r = µˆ (8) y olarak fade edlr. Burada uyum ortalaması ˆ µ µ ( x β ) = ı koşullu ortalamasıdır. Normal dağılımlı klask doğrusal regresyo modelde homoskedastk hata y µ ~ N 0, σ olarak taımlaır. Böylece geş öreklerde artıklar sabt varyas ( ) [ ] le 0 etrafıda smetrk olarak dağılırlar. Sayma verler ç se ( ) µ y, heteroskedastk ve asmetrktr. Böylece geş örekler ç hata termler heteroskedastk ve asmetrk olduğu söyleeblr. 65
Özlem Dez Sayma verler ç sıfır ortalama, sabt varyas ve smetrk dağılıma sah br artık yoktur. Yaıla düzelemeler soucuda heteroskedaste roblemde kurtarılmış artıklar Pearso artıklar olarak adladırılır ve P ( y ˆ µ ) = (9) ˆ ω şeklde hesalaır. ωˆ ; bağımlı değşke ω varyasıı kestrmdr. Bu artıkları kareler tolamı Pearso statstklerde kullaılır. Posso modellerde ω = µ, geelleştrlmş doğrusal modellerde ω = αµ ve karesel varyas foksyoua sah egatf bom modellerde ω = µ + αµ olarak hesalaır. Pearso artık değerler 0 ortalama ve homoskedasteye sahtr. Acak bu değerler asmetrk dağılıma sah olduğu belrtlmeldr. Eğer y, doğrusal üstel ale yoğuluk foksyou olarak hesalaırsa, sama artıklar kullaılır ve şeklde fade edlr. λ ( µˆ ) ; µ ˆ µ logartmk yoğuluk foksyou, ( y) ( y ˆ µ ) { λ( y ) λ( ˆ )} d = sg µ (0) = olarak fade edldğde y ç belrlemş λ ; µ = y olarak fade edldğde y ç belrlemş logartmk yoğuluk foksyoudur. Hesalaa bu artık değerler kareler tolamı sama statstğde kullaılmaktadır. σ olduğu ble ormal dağılım altıda; ( ) σ Varyası d = y şlemyle stadartlaştırılmış artıklara ulaşılır. Posso ç bu artıklar; µ ( y ˆ µ ) { y l( y ˆ µ ) ( y ˆ )} d = sg µ () olarak fade edlr. Bu eştlkte eğer y = 0 se y l y = 0 olacağı görülmektedr (Log, 997). 66
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/.4. Uyum İylğ Geelleştrlmş doğrusal modeller ç e sık kullaıla uyum ylğ ölçüler, Pearso ve Sama statstklerdr. Bu ölçüler kullaılması le elde edle souçlar, regresyo katsayılarıdak kestrm hatalarıı kotrolü ç, k-kare uyum ylğ testde kullaılırlar..4.. Pearso İstatstğ µ ortalamalı ve ω varyaslı bağımlı değşke y ye at herhag br model ç stadart uyum ylğ ölçüm yötem earso statstğdr ve P = = ( ˆ µ ) y ˆ ω () olarak fade edlr. Bu değer ser yayılımıı aşırı olu olmadığıı belrlemede kullaılır. Burada µˆ ve ωˆ değerler, µ ve ω kestrm değerlerdr. Hesalaa P değer, µˆ ç belrlemş serbestlk dereces ( k) le karşılaştırılır. Bu formül Posso regresyo ç uyguladığıda, ω = µ olacaktır ve P = = ( y ˆ µ ) ˆ µ (3) şekl alacaktır. Hesalaa karşılaştırılacaktır. Burada; olduğu söyler. P > k P < k P değer de bezer şeklde ( k) serde aşırı yayılım serde eksk yayılım değer le.4.. Sama İstatstğ Uyum ylğ ölçülmesde kullaıla dğer br tekk de sama statstğdr. Bu statstk değere ayı zamada G kare statstğ de delmektedr. 67
Özlem Dez G kare statstğ; G = = y y l µ (4) şeklde fade edlr. Bu statstk değer 0 a yakısıyor se model uyumu artıyor deleblr. Eğer bu statstk değer tam 0 a eşt se model uyumuu mükemmel olduğu söyleeblr..4.3. Yaay R Ölçümü Doğrusal olmaya modeller ç kullaıla ortak br R taımı bulumamaktadır. Bu belrszlk yüzüde hesalaa değer fade edlrke yaay fades kullaılmaktadır. Doğrusal regresyo modellerde, R hesalaması ç başlagıç oktası geel kareler tolamlarıı ayrıştırılmasıdır. Geel olarak; = ( y y) = ( y ˆ µ ) + ( ˆ µ y) + ( y ˆ µ )( ˆ µ y) = = = (5) fadesde, lk fade geel kareler tolamı (TSS), kc fade artık kareler tolamı (RSS) ve üçücü fade açıklamış kareler tolamı (ESS) olarak açıklaır. So fade se eğer model sabt term çeryorsa, doğrusal regresyo model e küçük kareler kestrme göre sıfıra eşt olacaktır. Acak Posso u da çere ve doğrusal olmaya e küçük kareler le üstel koşullu ortalamaya sah tüm kestrcler ve modeller ç sıfıra eşt olmayacaktır. Bu durum da R, R = RSS TSS veya R = ESS TSS yötemde farklı br yolla hesalaması gerektğ ortaya çıkarmıştır (Camero ve Trverd, 998). Normallk varsayımı gerektrmeye Posso regresyo modele R ölçüsü olablrlk ora yaklaşımıa dayamaktadır. Doğrusal regresyo modele lşk EKK tahm, artık kareler tolamıı e çok olablrlk tahm ve sama değer le bezer özellkler göstermes edeyle öerle R ölçüsü; R log L = log L ( y) log L( ˆ µ ) ( y) log L( y) (6) 68
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/ şeklde taımlamaktadır. Burada log L( y), doygu model log-olablrlğ, log L ( µˆ ), lglele model log-olablrlğ ve log L( y), sadece sabt term buluduğu mmal model log-olablrlğ göstermektedr. y 0 gözlee değerler, ˆ µ ( ˆ = ex x β ) ya da ˆ µ ( ˆ = c ex x β ) tahm edle değerler ve ( ˆ = ex β 0 ) da y = ex( ˆ β ) ortalama değerler olmak üzere log-olablrlk foksyoları, c 0 ( y) = ( y log( y ) y log( y! )) = y ya log L (7) ( ˆ ) = ( y log( ˆ µ ) ˆ log( y! )) log L µ µ (8) = ( y) = ( y log( y ) y log( y! )) log L (9) = bçmde elde edlmektedr. Bu log-olablrlk foksyoları düzelerse yaay R ölçüsüe ulaşılmaktadır (Özme, 003)..4.4. K-Kare Uyum İylğ Test Verlmş ola Posso regresyo model ç gözlee frekaslar j ve teork frekasları edlmş olsu. Uygu br test uygulamadığı sürece y = 0,,..., m olsu. Bu model ç ˆ j, j = 0,,..., m şeklde fade ˆ j ler j lere yakılığıı yeterl olu olmadığıı, dolayısıyla kurula model uygu olu olmadığıa karar verlemez. Uyum ylğ celemek ç kurula hotezler; H : Verler Posso modele uyguluk göstermektedr 0 H : Verler Posso modele uyguluk göstermemektedr şeklde kurulablr. 69
Özlem Dez Pearso χ test statstğ; χ = j ( j ˆ j ) = ˆ j (30) k-kare uyum ylğ test olarak adladırılır. Bu formül yardımıyla bulua souç χ değeryle karşılaştırılır. N, brm sayısı, P, tahm ( N ) serbestlk derecel edlmek stee arametre sayısıdır. Hesalaa değer χ N değer aşıyorsa hotez reddedlr ve verle osso modele uyguluk göstermedğ kabul edlr (Dobso, 00)..5. Regresyo Katsayılarıı Alamlılığıı Test Hesalamış ola katsayıları b, b,..., bk şeklde gösterldğ varsayılsı. Hesaları bu katsayıları hçbr şlem uygulamada yorumlamasıı doğru olmadığı belrtlmşt. Çükü kestrle değerler, üstel foksyo yardımıyla türetlmşt. Katsayıları alamlılığıı test ç kullaılacak hotezler; H : β = 0,,..., (ß katsayısı alamsızdır) 0 = ( ) ( ) H : β 0,,..., (ß katsayısı alamlıdır) 0 = şekldedr. Bu hotezler testde e sık kullaıla yötem Wald ı statstğdr ve χ b χ w = (3) sb şeklde hesalaır. Bu eştlkte b, regresyo katsayılarıı; s b se, bast stadart hata değer φ sayısıı karekökü le çarımı yardımıyla elde edlr. b s b s = φ (3) şeklde fade edlr. Böylece düzeltlmş stadart hata değere ulaşılır. φ sayısı se, k kestrlecek arametre sayısı olmak üzere; 70
İstabul Tcaret Üverstes Fe Blmler Dergs Bahar 005/ eştlğde elde edlr. Hesalaa Wald ı = ( µ ) y φ = (33) k µ χ statstk değer, serbestlk derecel χ değeryle karşılaştırılır. Eğer hesalaa değer tablo değer aşıyorsa H 0 hotez reddedlr. Ya katsayıları alamlı olduğua karar verlr. Katsayıları alamlılığıı testde sora; α sb b µ z (34) fades yardımıyla, katsayılar ç alt ve üst lmt değerler hesalaır. 3. SONUÇ Bldğ gb, verler sürekl olduğu durumlarda doğrusal regresyo aalz kullaılablmektedr. Acak aalzlerde kullaılacak verler her zama sürekl halde bulumayablr. Bu gb durumlarda ya; verler keskl olması durumuda da doğrusal regresyo modeller kullaılarak yaılacak aalzler etksz, tutarsız ve çelşkl souçlar verecektr. Bu sebete dolayı keskl verler ç tüm koşullar sağladığıda kulaılablecek e etk model Posso regresyo modellerdr. Bu modeller kullaılablmes ç dkkat edlmes gereke e öeml koşul, koşullu varyas değer koşullu ortalama değere eşt olmasıdır. Br çok uygulamada koşullu varyas değer, koşullu ortalama değer aşar. Böyle durumlarda Posso regresyou kullaılması doğru değldr. Buu yere egatf bom regresyo kullaılır. Negatf bom dağılımıda varyası, ortalamaı karesel foksyou olduğu varsayılır. Posso regresyo model üstel br model olması sebebyle katsayı yorumlamalarıda zorluk ve karmaşıklık yaratması dezavatajıı yaıda, bağımlı değşke sayma verlerde oluştuğu durumlarda doğrusal regresyo aalze alteratf olable br modeldr. Bu sebele so yıllarda ek çok alada kullaım mkaı bulablmektedr. 7
Özlem Dez KAYNAKÇA Akı, F., (00), Kaltatf Terch Modeller Aalz, Bursa, Ek Ktabev. Camero, C.- Trved, P., (998), Regresso Aalyss of Cout Data, Cambrdge, Cambrdge Uversty Pres. Dobso, A., (00), A Itroducto to Geeralzed Lear Models, Boca Rato, Chama ad Hall. Log, S., (997), Regresso Models for Categorcal ad Deedet Varables, Lodo, Sage Publcatos. McCullagh, P.- Nelder, J.A., (983), Geeralzed Lear Models, Lodo Chama ad Hall. Özme, İ., (003), Posso Regresyo Model ç Düzeltlmş Belrtme Katsayıları, Atalya İstatstk Semozyumu Bldrs. 7