DEÜ MÜHENDİSLİ FAÜLTESİ MÜHENDİSLİ BİLİMLERİ DERGİSİ Cilt: 4 Sayı: sh. 39-47 Oca 202 ARIŞIMLI İİLİ LOJİSTİ REGRESYON MODELİNE İLİŞİN BİR UYGULAMA (AN APPLIACTION FOR MIXTURE BINARY LOGISTIC REGRESSION MODEL) Yılmaz AYA*, Abdullah YEŞİLOVA** ÖZET/ABSTRACT Lojisti regresyonda, gözlenen varyansın, belenen varyanstan büyü olması aşırı yayılım olara tanımlanmatadır. arışımlı modellemede, aşırı yayılıma gözlenemeyen heterojenliğin neden olduğu varsayılmatadır. Veri seti endi içerisinde homojen alt populasyonlara ayrılara, aşırı yayılım giderilmetedir. arışımlı lojisti regresyonda parametre tahminlerinin elde edilmesinde EM algoritmasını esas alan en ço olabilirli yöntemi ullanılmatadır. Uygun model seçiminde ise AIC ve BIC ölçütleri yaygın olara ullanılmatadır. Çalışmada, lojisti regresyon analizi sonucunda meydana gelen aşırı yayılım, veri seti endi içerisinde homojen ii alt populasyona ayrılara giderilmiştir. Modele alınan bağımsız değişenlerin tamamı etileri istatistisel olara önemli bulunmuştur (p<0.0). In logistics regression, when observed variance is more than expected variance it is defined as over dispersion. In mixture modeling, it is assumed that unobserved heterogeneity causes the over dispersion. The data set is divided into homogenous sub proportions in order to overcome the over dispersion. In obtaining the parameter estimations, Maximum lielihood method which taes the EM algorithm, is used. For suitable model selection, AIC and BIC criteria are widely used. In this study, over dispersion caused by logistic regression analysis was solved by separating the data set to two homogenous sub- populations. All independent variables taen to the model were found statistically significant (p<0.0). ANAHTAR ELİMELER/EYWORDS AIC, BIC, EM algoritması, Lojisti regresyon, Mixture binary logistic regression AIC, BIC, EM algorithm, Logistic regression, arışımlı iili lojisti regresyon * Yüzüncü Yıl Ün., Van Mesle Yüseoulu, Bilgisayar Tenolojileri ve Programcılığı Bölümü, VAN ** Yüzüncü Yıl Ün., Ziraat Fa., Zooteni Böl., Biyometri ve Geneti Anabilim Dalı, VAN
Sayfa No: 40 Y. AYA, A. YEŞİLOVA. GİRİŞ Lojisti regresyon (LR), bağımlı değişenin binom dağılım gösterdiği durumlarda ullanılmatadır. Başa bir ifadeyle, LR, iili (binary) bağımlı değişen ile bağımsız değişenler arasındai neden sonuç ilişisini belirlemede ullanılan bir yöntemdir (Bonney, 987; Zhang, 999; Stoes vd., 2000; SAS, 2008). LR de, genelleştirilmiş doğrusal modeller ullanılara bağımsız değişenlerin doğrusal yapısını, iili bağımlı değişeninin belenen değerine bağlayan bir bağlantı (lin) fonsiyonunu ullanmatadır. LR de, ullanılan bağlantı fonsiyonu logit dönüşüm ile verilmetedir. (McCullagh ve Nelder, 989; Dobson, 990; Stoes vd., 2000). LR de, gözlenen varyansın, belenen varyanstan büyü olması aşırı yayılım (overdispersion) olara tanımlanmatadır (Cox, 983; Lambert ve Roeder, 995; Lindeys, 998). Aşırı yayılım, genellile gözlenemeyen heterojenliğin neden olduğu bir durumdur (Wang vd., 996; Wang vd., 998; Jones vd., 200; Yeşilova, 2003; SAS, 2008). Gözlenemeyen heterojenliğin belirlenmesinde ullanılan yöntemlerden biri arışımlı lojisti regresyon (LR) dir. LR de, veri setinin farlı alt populasyonlardan oluşan heterojen bir populasyondan elde edilmiş olduğu varsayılmatadır. LR de, veri setinin dahil olacağı homojen alt populasyonların sayısı belirlenere, gözlenemeyen heterojenli giderilmeye çalışılmatır. Daha sonra her bir alt populasyon için ayrı parametre tahminleri elde edilmetedir (Wang vd.,996; Wang vd., 998; Wang ve Putterman, 998; Out vd., 200; Leisch, 2004; aya, 2007). Bağımlı değişenin iili olması durumunda arışımlı iili lojisti regresyon (İLR) ullanılmatadır. İLR de parametre tahminleri, EM (Expectation-Maximization) algoritması ullanılara en ço olabilirli yöntemi ile elde edilir (Dempster vd., 977). Veri setini en iyi açılayan modelin seçiminde, Aaii bilgi riteri (AIC) ve Bayesian bilgi riteri (BIC) en ço ullanılan model uyum riterleridir (Wang ve Putterman, 998; Dalrymple vd., 2002; SAS, 2008). Bu çalışmada, İLR modelinin teori özellileri incelenere, Beden Eğitimi ve Spor Öğretmenliği alanında elde edilen gerçe bir veri setine uygulaması yapılmıştır. İl olara, veri setinin te bir populasyondan elde edilmiş olduğu varsayılara LR analizi yapılmıştır. Daha sonra LR analizi sonucunda oluşan aşırı yayılımı giderme için veri seti İLR analizine tabi tutulmuştur. BMLR de her bir alt populasyon için ayrı parametre tahminleri ve alt populasyonlara düşen bireylerin sayıları tahmin edilmiştir. 2. VERİ SETİ Bu çalışmada ullanılan veri seti, 2005 2006 öğretim yılı için Yüzüncü Yıl Üniversitesi Eğitim Faültesi Beden Eğitimi ve Spor Öğretmenliği Bölümü için açılan yetene sınavına başvuran toplam 467 ere adaydan oluşmuştur. Verilerin bir bölümü (ÖSS puanı, Ağırlılı Orta Öğretim Başarı Puanı=AOÖBP) Öğrenci Seçme ve Yerleştirme Merezi nin (ÖSYM) internet sayfasından elde edilmiştir. Veri setini oluşturan diğer değişenler ise sınav esnasında adaylardan yüz yüse alınmıştır. Adayların performans değişenleri ise sınav esnasında adaylar izlenere elde edilmiştir. 3. YÖNTEM 3.. İili Lojisti Regresyon arışımlı lojisti model için esili arışımlı dağılım (Wang vd., 996; Leisch, 2004),
Mühendisli Bilimleri Dergisi Cilt : 4 Sayı : Sayfa No: 4 ' ( ) ( / exp( )) = p y = Binom y v βx π () biçiminde yazılabilir. Burada π, ıncı alt populasyonun arışma olasılığını; y, bağımlı değişeni; x, bağımsız değişen vetörünü; β, bilinmeyen parametre vetörünü; ν, gamma dağılımına sahip rassal bir eti veya değişeni göstermetedir. y i, binom dağılımı gösterir ve, n PY ( i = yi) = pi ( pi) yi i yi ni yi (2) biçiminde yazılır. Burada p i, istenen olayın gerçeleşme olasılığı, n toplam deneme sayısı, y i istenen başarılı olay sayısını belirtir. Lojisti regresyonda ullanılan logit bağlantı fonsiyonu, p i Logit( pi ) = ln = pi ' βx olara yazılabilir (Zhang, 999). Bu durumda y değerlerine ilişin marjinal olasılı yoğunlu fonsiyonu, f ( y) = P( C = ) P( Y = y C = ) = π = = f ( y, p ) (3) şelinde yazılabilir (Yeşilova, 2004; Leisch, 2004). Binom dağılımlı veri setinin, adar alt populasyona ait heterojen bir örne olması durumunda ıncı alt populasyona giren i inci şans değişeninin olasılığı (Out vd., 2002), π ( ) i = P ci = biçiminde verilebilir. Bütün veriler için log-olabilirli fonsiyonu, n n i i i i i= = i= = L(Y, X, βπ, ) = c log π + c log(binom(y β,x)) (4) biçiminde yazılabilir. Eşitli 4 te, c i gözlenemeyen gözlemler olup, {, i =,2,... n; =,2 } C = ci,...
Sayfa No: 42 Y. AYA, A. YEŞİLOVA c i =,ci c i = 0,diğer durumlar biçiminde yazılabilir (Out vd., 2002; Yeşilova, 2003). 3.2. İili Lojisti Regresyon Modeli İçin EM Algoritması ve En Ço Olabilirli Yöntemi BMLR modeli için EM algoritmasının aşamaları aşağıdai gibi verilebilir (Wang vd., 996; Wang ve Putterman, 998). Birinci aşamada, β ve π başlangıç değerleri belirlenir. E aşamasında, β ve π başlangıç değerleri verildiğinde gözlenmiş veriler (X, Y) ve parametrelerin başlangıç değerleri üzerinden, C esi gözlemleri elde edilir. Ĉ i ( β, π ) ullanılara c i nin ıncı unsurunun oşullu olasılığı, ( ) ĉ = β, π = i, = ( β ) ( π ) π binom y x, i i π binom y x, i i, =,2,..., (5) biçiminde verilebilir. M aşamasında ise z i indiatör değişen olup parametre tahminleri, Eşitli 4 te verilen log olabilirli fonsiyonun β ve π ye göre masimize edilmesi ile, ( ) { } Q = β,p β, π = E (L(Y,C, β,p,x)) Y,X, β, π (6) Q= Q+ Q2 biçiminde elde edilir.burada, Q ve Q 2, n i, i= = ( ) ( π) Q = c β, π log (7) ( ) n 2 = i, β π yi ni πi (8) i= = Q c, log bi(, ) biçiminde elde edilir. Eşitli 7 ve 8 de verilen ˆβ ve ˆπ tahmin edicileri, Q ve 2 Q eşitlilerinin π ve β ya göre türevlerinin alınması ile,
Mühendisli Bilimleri Dergisi Cilt : 4 Sayı : Sayfa No: 43 Q π = 0, =,..., (9) β Q 2 = 0 biçiminde elde edilir. Eşitli 9 ullanılara ˆπ, n π ˆ ˆ = ci,, =,..., () n i= biçiminde elde edilmetedir (Wang vd., 996; Wang vd., 998; Wang ve Putterman., 998). Yuarıda verilen Eşitli 9 ve 0 da apalı formunun çözümünün zor olmasından dolayı, parametre tahminleri için Quasi-Newton yalaşımı ullanılara E ve M aşamaları,. aşamada, β = ( β,..., β ) ve π = ( π,..., π ) başlangıç değerlerinin ε ve ε0 tolerans değerlerine göre belirlenmesi, 2. aşamada (E-aşaması), 5.eşitli ullanılara ( c,...,c ) cˆ ˆ ˆ = i,2,...,n i i, i, = (2) değerleri hesaplanılır. ĉ i, nın hesaplanmasında aşırı yayılımı engelleme için Eşitli 5 de verilen fonsiyonun payı, payda toplamı içinde yer alan en büyü değere bölünür. 3. aşamada (M-aşaması), a) Quasi- Newton algortiması ullanılara Eşitli 9 da ˆπ parametresinin hesaplanması. b) Quasi-Newton algoritması ullanılara Eşitli 0 nun çözümünden ˆβ parametresinin hesaplanması. 4. aşamada, aşağıdai oşullardan en az biri doğru ise, β =β, ˆ π =π ˆ olur ve. asamaya gidilir, asi durumda c aşamasına gidilir. ) ˆβ β ε (3) 2) ˆπ π ε (4) 3) L( Y,X, ˆ, ˆ ) L( Y,X,, ) βπ β π ε (5) 0
Sayfa No: 44 Y. AYA, A. YEŞİLOVA c) Quasi-Newton algoritması ullanılara gözlenmiş L( Y,X, βπ, ) log olabilirli fonsiyonu masimize edilere işlem sonlandırılır (Wang ve ar., 996; Wang ve ar., 998). 3.3- Uygun Model Seçimi arışımlı modellerde uygun model seçimi için AIC ve BIC bilgi ölçütleri ullanılır. Uyum ölçütleri genel olara; AIC = -LogL + 2p (6) BIC = -LogL + p ln(n) (7) biçiminde yazılabilir. Burada, p parametre sayısını göstermetedir (Wang vd., 996). 4. SONUÇLAR Çalışmada, gereli analizler SAS istatisti yazılım programı (PROCEDURE TRAJ) ullanılara yapılmıştır. Öğrencilerin sınavı azanıp azanmaması (sınav sonucu) bağımlı değişen, Mei Sayısı, ÖSS ve AOÖBP bağımsız değişenler olara modele alınmıştır. Veri setine ait tanımlayıcı istatistiler Çizelge de verilmiştir. Çizelge. Bağımsız değişenlere ilişin tanıtıcı istatistiler Değişenler N Ortalama+S.Sapma Minimum Masimum Mei Sayısı 467 2.6±6.233 53.000 59.000 ÖSS Puanı 467 27.7±7.020 66.400 257.900 AOÖBP 467 78.9±6.475 64.660 98.4600 Veri setinin il önce lojisti regresyona göre analizi yapılmıştır. Lojisti regresyonunda, deviance uyum istatistiğine ilişin yayılım parametre değeri 6.328, Pearson i-are uyum istatistiğine ilişin değer ise 6.2 olara bulunmuştur. Elde edilen uyum istatistiği değerlerinin değerinden büyü çıması veri setinde aşırı yayılım olduğunu göstermetedir (SAS, 2008). Veri setindei aşırı yayılım tespit edilditen sonra, arışımlı İLR uygulanmıştır. İili arışımlı lojisti regresyona ilişin elde edilen model uyum ölçütleri Çizelge 2 de verilmiştir. Çizelge 2 ye baıldığında ii alt populasyondan (alt populasyon 2) sonra AIC ve BIC uyum ölçütlerinin büyüdüğü görülmetedir. Birinci alt populasyon (lojisti regresyon) için uyum istatistileri AIC=04.293 ve BIC=09.55 olara bulunmuştur. En üçü AIC ve BIC değerlerine sahip model, veri setini en iyi açılayan model olara bilinmetedir. Bundan dolayı, oyu harflerle gösterilen ii alt populasyonlu model en iyi model olara seçilmiştir.
Mühendisli Bilimleri Dergisi Cilt : 4 Sayı : Sayfa No: 45 Çizelge 2. Farlı alt populasyonlar ilişin uyum ölçütleri Alt Populasyonlar AIC BIC Alt Populasyon 04.293 09.55 Alt Populasyon 2 52.672 67.260 Alt Populasyon 3 60.533 84.847 Alt Populasyon 4 92.287 26.326 En iyi model olara seçilen ii alt populasyonlu modelde, her bir alt populasyon için elde edilen parametrelerin ortalama değerleri Çizelge 3 te verilmiştir. Birinci alt populasyonda ortalama mei sayısı 00.33, ortalama ÖSS puanı 209.249 ve ortalama AOÖBP puanı 78.362 olara elde edilmişen, iinci alt populasyonda ortalama mei sayısı 5.892, ortalama ÖSS puanı 29.960 ve ortalama AOÖBP puanı 78.42 olara elde edilmiştir. Çizelge 3. İi alt populasyonlu modele ait ortalama parametre değerleri Alt Populasyon Mei Sayısı ÖSS AOÖBP 00.33 209.249 78.362 2 5.892 29.960 78.42 İili arışımlı lojisti regresyon için elde edilen parametre tahmin değerleri ve standart hataları Çizelge 4 te verilmiştir. Mei sayısı, OSS ve AOÖBP bağımsız değişenlerin tamamının sınavı azanma üzerine olan etileri her ii alt populasyonda önemli bulunmuştur (p<0.0). Çizelge 4. arışımlı lojisti regresyon analiz sonuçları Alt Populasyon arışma Olasılıları (%) β 0 Mei Sayısı OSS AOÖBP Alt Populasyon 20.9 642.460 2.054 (0.044)** -5.766 (0.027)** 0.037 (0.04)** Alt Populasyon 2 79. 400.235 30.726 (0.03)** 0.00 (0.020)** 0.044 (0.045)** ** p<0.0 İi alt populasyonlu modelde, bireylerin her bir alt populasyona dağılma olasılıları ve sayıları Çizelge 5 de verilmiştir. Birinci alt populasyona bireylerin 58 (% 20.9), iinci alt populasyona ise 409 (% 79.) dahil olmuştur.
Sayfa No: 46 Y. AYA, A. YEŞİLOVA Çizelge 5. Adayların alt populasyonlara dağılımı Alt Populasyon Sayı Oran % Alt Populasyon 58 20,9 Alt Populasyon 2 409 79, 5. TARTIŞMA Binom dağılımda, gözlenen varyansın belenen varyanstan büyü olduğu durum, aşırı yayılım veya extra-binomial varyasyon olara adlandırılmatadır (Cox, 983; Lindsey, 998; aya, 2007). Bu durumda lojisti regresyonun ullanılması doğru ve tutarlı olmayan parametre tahminlerin ve standart hataların elde edilmesine neden olmatadır. Çizelge 2 de farlı alt populasyonlu modeller için hesaplanan AIC ve BIC uyum ölçütleri ii alt populasyonlu modelden sonra gidere büyüdülerinden dolayı, dört alt populasyonlu modelden sonrai alt populasyonlu modellere yer verilmiştir. Çalışmada, lojisti regresyonda meydana gelen aşırı yayılım, veri seti endi içerisinde ii alt populasyona ayrılara giderilmiştir. Böylece her bir alt populasyon içi homojenli sağlanıren, alt populasyonlar arası heterojenlite otaya onmaya çalışılmıştır. Çizelge 3 de birinci alt populasyonda mei sayıları ve ÖSS puanlarının ortalama değerlerinin iinci alt populasyondan elde edilen ortalama değerlere göre daha üçü olduğu saptanmıştır. Mei sayısı, ÖSS ve AÖOBP puanları öğrencilerin sınavı azanmalarında doğrudan etili olan fatörlerdir (aya, 2007). Çalışmada, özellile mei sayısı ve ÖSS puanın, öğrencilerin sınavı azanmalarında doğrudan etili olduğu belirlenmiştir. Bununla birlite, AÖOBP ortalama değeri her ii alt populasyonda benzerli göstermiştir. Bu baımdan, Çizelge 4 de verilen bağımsız değişenlerin tamamının, sınavı azanma üzerindei etilerinin önemli olması, Çizelge 3 de verilen ortalama değerleri ile birbirlerini destelemetedir. Özellile mei sayısı ve ÖSS puanının her ii alt populasyonda farlılı göstermeleri, bu her ii özelliğin sınav sonucunu doğrudan etiledileri söylenebilir. Bu bağlamda, iinci alt populasyondai öğrencilerin sınavı azanma şanslarının daha yüse olduğu saptanmıştır. Başa bir ifadeyle, birinci alt populasyona dahil edilen adayların 58 (% 20.9) inin sınavı azanma şanlarının iinci alt populasyondai 409 (% 79.) adaydan daha az olduğu saptanmıştır. Bunun yanı sıra, AÖOBP her ii alt populasyonda da yaın değerler almıştır. Bu çalışmada, bağımlı değişenin iili olduğu durumlarda veri setinde meydana gelene aşırı yayılımı modelleme için arışımlı iili lojisti model ullanılmıştır. Elde edilen sonuçlar doğrultusunda, arışımlı iili lojisti modelin, logistic regresyonda meydana gelen aşırı yayılım modellemede olduça etin olduğu belirlenmiştir. AYNALAR G. E. Bonney (987): Logistic Regression for Dependent Binary Observations: Biometrics, Cilt 43, No. 4, s. 95-973. R. Cox (983): Some Remars on Overdispersion: Biometria, Cilt 70, s. 269-274. M. L. Dalrymple, I. L. Hudson, R. P.. Ford (2003): Finite Mixture, Zero-Inflated Poisson and Hurdle Models with Application to SIDS, Computational Statistics and Data Analysis, Cilt 4, s. 49-504. A. P. Dempster, N. M. Laird, D. B. Rubin (977): Maximum Lielihood from Incomplete Data via the EM Algrithm, Journal of Royal Statisticial Society, Cilt 39, s. -8.
Mühendisli Bilimleri Dergisi Cilt : 4 Sayı : Sayfa No: 47 J. A. Dobson (990): An Introduction to Generalized Linear Models, New Yor: Chapman and Hall. B. Jones, S. D. Nagin,. Roeder (200): A SAS Procedure Based on Mixture for Estimating Developmental Trajectories, Sociological Methods and Research, Cilt 29, No. 3, s. 374-393. Y. aya (2007): Binary arışımlı Lojisti Regresayon (Yüse Lisans Tezi, Basılmamış), Yüzünyü Yıl Üniversitesi, Fen Bilimleri Enstitüsü. D. Lambert,. Roeder (995): Overdispersion Diagnostics for Generalized Linear Models, Journal of the Amarican Statistical Association, Cilt 90, No. 432, s. 225-236. F. Leisch (2004): FlexMix: A General Framewor for Finite Mixture Models and Latent Class Regression in R, Journal of Statistical Software, Cilt, No. 8. J.. Lindsey (998): On the Use of Corrections for Overdispersion Appl. Statist, Cilt 48, No. 4, s. 553 56. McCullagh, P., Nelder, JA. (989). Generalized Linear Models: Second Edition,, London, Chapmann and Hall, 486. H. Out, T. E. Duncan, S. C. Duncan, L. A. Strycer (2002): Growth Mixture Modeling of Zero-Inflated Count Data, J. of Psychopathology and Behavioral Assessment. SAS (2008): SAS/STAT Software:Hangen and Enhanced. SAS, Inst. Inc., USA. M. E. Stoes, C. S. Davis, G. G. och (2000): Categorical Data Analysis Using the SAS System, John Wiley and Sons, USA. P. Wang, I. M. Cocburn, M. L. Puterman (998): Analysis of Patent Data-Mixed Poisson Regression Model Approach, Journal of Business and Economic Statistics, Cilt 6, No., s. 27-4. P. Wang, M. L. Puterman, I. M. Cocburn, N. Le (996): Mixed Poisson Regression Models with Covariate Dependent Rates, Biometrics, Cilt 52, s. 38-400. P. Wang, M. L. Putterman (998): Mixed Logistic Regression Models, Journal of Agriculture, Biological and Environmental Statistics, Cilt 3, No. 2, s. 75-200. A. Yeşilova (2003): The Use of Mixed Poisson Regression Models for Categorical Data in Biology, Dotora Tezi, Yüzüncü Yıl Üniversitesi, Van. B. Zhang (999): A Chi-Squared Goodness-of-Fit-Test for Logistic Regression Models Based on Case-Control Data, Biometria, Cilt 86, s. 53-539.