eyd Ekonomik Yaklaşım Derneği / Association

Transkript

1 eyd Ekonomik Yaklaşım Derneği / Association Ekonomik Yaklaşım 2016, 27(101): doi: /ey Sağlık Harcamasının Tahmininde Klasik Regresyon Yöntemleri İle Veri Madenciliği Regresyon Yöntemlerinin Karşılaştırılması Songül ÇINAROĞLU 1 14 Nisan 2016 da alındı; 04 Ekim 2016 da kabul edildi. 10 Ekim 2016 dan beri erişime açıktır. Received 14 April 2016; accepted 04 October Available online since 10 October Özet Araştırma Makalesi/Original Article Sağlık harcamaları ile ilgili analizlerde karşılaşılan temel güçlüklerden birisi sağlık harcaması dağılımının normal dağılım özelliği göstermeyerek aşırı sağa çarpık olmasıdır. Bu durum sağlık harcamalarını incelemek amacıyla oluşturulan regresyon modellerinde doğrusallıktan ayrılmayı beraberinde getirmekte ve regresyon modelinin performansının düşmesine neden olmaktadır. Klasik regresyon modellerinin performans sonuçlarını iyileştirmek amacıyla veri madenciliği temeline dayanan regresyon yöntemlerinin kullanımı sayesinde aşırı uyum sorununun üstesinden gelinebilmektedir. Regresyon ağacı, Random Forest Regresyonu ve Destek Vektör Regresyonu bu yaklaşımlardan bazılarıdır. Bu çalışmada 2013 yılı itibariyle Dünya Bankası na üye olan toplam 214 ülkeye ait veriler incelenerek kişi başı sağlık harcamasının tahmin edilmesine yönelik farklı regresyon yöntemi performans sonuçlarının karşılaştırılması amaçlanmıştır. Analiz öncesinde sağlık harcaması değişkenine ait dağılım logaritmik ve Box-Cox dönüşümleri uygulanarak normalleştirilmiştir. Çalışmada sağlık harcamalarını tahmin etmek amacıyla Çoklu Doğrusal Regresyon, Regresyon Ağacı, Random Forest Regresyon ve Destek Vektör Regresyonu yöntemleri kullanılmıştır. Tahmin performanslarının değerlendirilmesi amacıyla R 2, RMSE ve MAE değerlerinden yararlanılmıştır. Performans sonuçları farklı sayılarda belirlenen k parametrelerinden elde edilen çapraz geçerlilik değerleri üzerinden karşılaştırılmıştır. Elde edilen bulgular kişi başı sağlık harcaması değişkenine Box- Cox dönüşümü uygulandığında ve çapraz geçerlilikte k parametresi arttırıldığında Destek Vektör Regresyonu 1 Yazışmadan sorumlu yazar (Corresponding author). Hacettepe Üniversitesi İİBF Sağlık İdaresi Bölümü Beytepe, Ankara cinaroglus@hotmail.com Ekonomik Yaklaşım ISSN print 2016 Ekonomik Yaklaşım Derneği / Association - Ankara Her hakkı saklıdır All rights reserved

2 186 Songül ÇINAROĞLU kullanılarak elde edilen performans sonuçlarının diğer regresyon yöntemlerine göre göreceli olarak daha iyi tahmin gücüne sahip olduğunu ortaya koymaktadır. Çalışma sonuçları diğer regresyon yöntemlerine göre Destek Vektör Regresyonunun daha iyi performans sergilediğini göstermektedir. İlerleyen araştırmalar için grid arama metodlarının kullanıldığı hiperparametre optimizasyon yöntemlerinden yararlanılarak Destek Vektör Regresyonu performansının daha detaylı olarak incelenmesi tavsiye edilmektedir. Anahtar Kelimeler: Çoklu Doğrusal Regresyon; Regresyon Ağacı; Random Forest Regresyon; Destek Vektör Regresyonu; Kişi Başı Sağlık Harcaması. JEL Kodları: C13, Q13, Q EYD tarafından yayımlanmıştır Abstract Comparison of Classical Regression Methods with Data Mining Regression Methods in Prediction of Health Expenditure One of the main difficulties about analyzing health expenditures is, the distribution of health expenditure is not normal and extremely positively skewed. This brings about overfitting problem and causes a decrease in regression model performance for predicting health expenditures. It is possible to use data mining based regression methods to improve classical regression model performances and overcome overfitting problem. Regression Tress, Random Forest Regression and Support Vector Regression are some of these methods. In this study it is aimed to compare prediction performances of different regression methods about predicting per capita health expenditures of member of total 214 World Bank countries. Before the analysis the distribution of health expenditure per capita normalized with using logarithmic and Box-Cox transformations. Multiple Linear Regression, Regression Tree, Random Forest Regression and Support Vector Machine Regression methods was used for prediction and R2, RMSE and MAE values are used for the assessment of prediction performances. Performance results are compared according to cross validation values determined by using different number of k parameters. Study findings show that prediction performance of Support Vector Regression is relatively higher compared with other regression methods when health expenditure per capita transformed by using Box-Cox transformation and when k parameter increases in cross validation. Study results show that Support Vector Regression prediction performance is higher than other regression methods. It is advisable for future studies to examine Support Vector Regression performances using grid search methods which are one of hyperparameter optimization techniques. Keywords: Multiple Linear Regression; Regression Tree; Random Forest Regression; Support Vector Regression; Health Expenditure per capita. JEL Codes: C10, C88, H Published by EYD Bu makalenin adını ve doi numarasını içeren aşağıdaki metni kolayca kopyalamak için soldaki QR kodunu taratınız. Scan the QR code to the left to quickly copy the following text containing the title and doi number of this article. Comparison of Classical Regression Methods with Data Mining Regression Methods in Prediction of Health Expenditure

3 Comparison of Classical Regression Methods with Data Mining Regression Methods GİRİŞ Sağlık harcamalarının seviyesi gelişmişlik ve refah düzeyinin önemli bir belirleyicisidir. Bu nedenle gelişmiş ülkelerden gelişmekte olan ülkelere doğru kaynak transferlerinin yapıldığı ve gelişmekte olan ülkelerde sağlık seviyesinin yükseltici politik uygulama ve tedbirler alındığı görülmektedir (Gottret 2006). Bu uygulamalarda odaklanılan temel konuların başında sağlık harcamalarını belirleyen değişkenlerin neler olduğu gelmektedir. Yapılan çalışmalar sağlık harcamalarını belirleyen temel değişkenlerin gelir seviyesi, toplam nüfus ve nüfusun yaş dağılımı, sağlık hizmetlerinin sunumu ve bu hizmetlere erişim düzeyi olduğunu göstermektedir (Martin vd. 2011). Sağlık harcamalarını tahmin etmede kullanılan değişkenler arasında yer alan gelir düzeyi arttıkça ülkelerin sağlık harcaması seviyesinin de yükseldiği görülmektedir (Makinen vd. 2000). Bir diğer değişken olan toplam nüfus ve nüfusun yaş dağılımı dikkate alındığında ise başta Avrupa ülkelerinde olmak üzere yaşlı nüfus artışının sağlık harcamalarında artışı beraberinde getirdiği söylenebilmektedir (Christensen vd. 2009). Sağlık harcamalarının modellendiği araştırmalarda karşılaşılan önemli bir sorun sağlık harcaması dağılımının normal dağılım özelliği göstermeyerek sağa çarpık dağılım özelliği göstermesidir (Manning 1998). Sağlık harcamalarının analizinde karşılaşılan bir diğer güçlük ise aşırı uyum sorunudur. Bu sorun bağımlı değişken ve bağımsız değişken(ler) arasındaki ilişkide doğrusallıktan ayrılmayı beraberinde getirmekte ve model performansının düşmesine neden olmaktadır (Manning, 1998; Manning ve Mullahy 2001; Harrell 2001). Sağlık harcamaları ile ilgili analizlerde sorun yaratan bu normal dağılımdan ayrılma durumu ile başa çıkabilmek için farklı dönüşüm yaklaşımları uygulanmaktadır. Bu sayede dağılımın normal dağılım haline dönüştürülmesi mümkün olabilmektedir. Sağlık harcamalarının konu edinildiği regresyon analizlerinde bağımlı değişken

4 188 Songül ÇINAROĞLU dönüşümleri, eş varyansla normal dağılan toplamsal artıklar ve bağımsız değişkenlerle temsil edilen basit bir doğrusal model elde etmek için yapılır (Hamasaki ve Goto 2005; Çelik ve Erar 2013). Sağlık harcamalarının incelenmesinde önde gelen araştırmacılar arasında bulunan Manning (1998), Jones vd. (2007), Baser (2007) tarafından önerildiği üzere bu farklı yaklaşımlar arasında ön plana çıkanlar arasında logaritmik dönüşüm ile Box-Cox dönüşümleri bulunmaktadır. Box-Cox dönüşümü 1964 yılında Box-Cox tarafından önerilmiş bir dönüşüm yaklaşımı olup normalite sınamasından geçemeyen verilere uygulanarak, serinin çarpıklığının giderilmesi amacıyla kullanılmaktadır (Box ve Cox 1964). Bu farklı dönüşüm yaklaşımları içerisinde sağlık ekonomistleri tarafından kabul edilen tek bir yaklaşım bulunmamakla birlikte, dağılımın normalleştirilmesi amacıyla deneme yanılma yönteminin izlenmesi tavsiye edilmektedir (Bilger ve Manning 2015). Sağlık harcamalarının tahmininde en fazla kullanılan regresyon modellerinden birisi çoklu doğrusal regresyon yaklaşımdır. Çoklu doğrusal regresyonda bağımlı değişkeni etkileyen çok sayıda bağımsız değişken bulunmaktadır. Bu çözümlemede, bağımlı değişken y iken, bağımsız değişkenler x 1, x 2, x 3. x p ile gösterilir. Çoklu doğrusal regresyonda y bağımlı değişkeni ile x 1, x 2, x 3. x p bağımsız değişkenleri arasındaki ilişki gözlemler cinsinden eşitlik (1) de görüldüğü gibi ifade edilebilmektedir (Alpar 2011). y i = β 0 + β 1 x i1 + β 2 x i2 +.+ β j x j β p x p2 + ε i (1) Bu eşitlikte β 0, β 1, β 2,.., β p bilinmeyenlerine regresyon katsayıları denilmektedir. Herhangi bir β j regresyon katsayısı, diğer değişkenler sabit tutulduğunda (diğer değişkenlerin etkisi ortadan kaldırıldığında) x j değişkeninde meydana gelen bir birimlik değişmeye karşılık y değişkeninde beklenen değişiklik miktarını vermektedir. ε i ise hata (yanılgı) terimidir. Çoklu regresyon denklemi

5 Comparison of Classical Regression Methods with Data Mining Regression Methods 189 yardımıyla, bağımlı değişkenin belirlenmesinde her bir bağımsız değişkenin göreceli önemi belirlenmiş olur. Bu bağlamda, çoklu doğrusal regresyonu basit doğrusal regresyondan ayıran özellik, her bir bağımsız değişken ile bağımlı değişken arasındaki ilişkilerin eşanlı olarak belirlenmesidir (Alpar 2011). Regresyon modellerinin oluşturulmasında kullanılan bir diğer yaklaşım ise Regresyon Ağacı (Regression Tree) yaklaşımıdır. Bu yaklaşımda CART (Classification and Regression Tree) algoritması kullanılmaktadır ve bağımsız değişkenlerin bağımlı değişken ile ilişkisini değerlendirmede ve model içindeki etkileşim yapısını ortaya koymada Regresyon Ağacı etkili bir yöntemdir (Witten vd. 2005; Chattamvelli 2009). Chattamvelli (2009) tarafından belirtildiği üzere CART algoritması kategorik ya da sürekli değişkenlerin kullanıldığı, bölünme türü olarak 2 li bölünme türünden yararlanılan, bölünme kriteri olarak Gini katsayısından yararlanılan bir karar ağacı algoritmasıdır. CART algoritması yalnızca regresyon amacıyla değil sınıflama amacıyla da kullanılmaktadır. Maksimum seviyede benzer alt sınıflar oluşturma ilkesine dayalı olarak çalışan regresyon ağacı algoritması, ağacın oluşturulması kısmında olabilecek en fazla sayıda alt ağacı belirlemektedir. Bu noktada alt ağaçlar arasında bağımlı değişken ile önemli ölçüde ilişkili olan ağaçları seçmek gerekmektedir. Bu nedenle bu algoritmanın ikinci kısmında budama modülü devreye girmektedir. Budama sonrasında en uygun ağaç yapısının seçimi gerçekleşmektedir. Bu yöntemin sürekli ya da kesikli bağımsız değişkenler ile model kurmaya imkan vermesi, normallik, homojenlik ve doğrusallık gibi varsayımların önemsenmemesi gibi nedenler ile kullanışlı bir yöntem olduğu söylenebilmektedir (Kayri ve Boysan 2008). CART algoritmasında kullanılan bilgi ölçüsü Gini Indeksi dir. Algoritmanın negatif yönlerinden birisi fazla sayıda kategori içeren girdi değişkenlerinin varlığında iyi performans sergileyememesidir. Bölünme kriteri olarak kullanılan Gini indeksi eşitlik (2) de görüldüğü gibi formüle edilebilmektedir (Coşgun ve Karaağaoğlu 2011). Gini Indeksi (D) = 1 - P J 2 n J=1 (2)

6 190 Songül ÇINAROĞLU CART algoritmasının kullanıldığı Regresyon Ağacı modellerinde ağaç sayısının arttırılması yolu ile regresyon modeli performans sonuçlarının optimize edilmesine dayanan bir yaklaşım ise Random Forest Regresyon (Random Forest Regression) yaklaşımıdır. Random Forest regresyonda daha fazla sayıda ağaç türetildiğinde daha yüksek model performansı elde edilmesi beklenmekle birlikte ağaç sayısındaki artışın veri setinin türü ve büyüklüğü ile bağlantılı olarak her zaman daha yüksek performans elde etmeyi garanti etmediği söylenebilmektedir (Oshiro vd. 2012). Bu nedenle farklı sayılarda ağaç türetilerek model performanslarının karşılaştırılması tavsiye edilmektedir. Modelin dezavantajları arasında tek bir karar ağacında olduğu gibi ortaya çıkan sonucun ağaç yapısı ile görsel olarak sunumunun mümkün olmaması ve modelin karmaşıklığı nedeniyle çok sayıda karar ağacının değerlendirilmesine ait işlem adımlarının görülmesine imkan vermemesi bulunmaktadır (Akman vd. 2011). Diğer regresyon modelleri içerisinde veri setinin türü ya da büyüklüğüne bağlı olarak doğrusallaştırılması mümkün olmayan modellerin doğrusallaştırılmasında kullanılan bir diğer yöntem Destek Vektör Makinası Regresyon yöntemidir. Destek Vektör Makinaları (DVM) son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemlerinin çözümünde kullanılmaktadır. Bu yöntem zaman içerisinde doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genişletilerek, bu problemlerin çözümünde yaygınlıkla kullanılmaya başlanmıştır (Yılmaz vd. 2013). Uygulamada daha çok sınıflama amacıyla kullanılan Destek Vektör Makinaları yardımı ile sınıflamada, en az iki grup sahip oldukları nitelikler bakımından doğrusal olan ve olmayan modeller şeklinde ayırt edilebilmektedir. Sınıflama amacıyla kullanılan modellerden daha çok sağlıkta hasta ve sağlıklı grupların ayırt edilmesinde yararlanılmaktadır (Yılmaz vd. 2013). Destek Vektör Makinalarının temelini verilerin bir düzlem ya da hiper düzlem kullanılarak ayırt edilmesi işlemi oluşturmaktadır. Bu yöntemde verileri çok boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En sık kullanılan çekirdek fonksiyonlar ise; doğrusal, çok

7 Comparison of Classical Regression Methods with Data Mining Regression Methods 191 terimli, radyal temel fonksiyonu (RTF) ve sigmoddir (Coşgun ve Karaağaoğlu 2011). Şekil 1 de iki sınıfa ait verileri ayırt edebilecek en uygun düzlemi veya hiper düzlemi belirlemek amacıyla grupların üç boyutlu uzaya aktarımı gösterilmiştir. Şekil 1 DVM da Grupların 3 Boyutlu Uzayda Hiperdüzlem Kullanılarak Ayırt Edilmesi 1.Grup 2.Grup Hiper düzlem Kaynak: Scholkopf B. Smola A.J. (2001) Learning with Kernels: Support Vector Machines, Ragularization, Optimization and Beyond, MIT Press, Cambridge, USA. Destek Vektör Makinaları ile ilgili ilk çalışmalar daha çok sınıflama amacıyla yapılmış olup zaman içerisinde özellikle zaman serilerinin tahmini ve regresyon uygulamalarında yüksek performans sonuçlarının elde edildiği görülmüştür (Bilişik 2011). Destek vektör makinelerinin regresyon için uyarlaması Vapnik vd. (1995; 1998; 1997) tarafından yapılmış olup bu uygulama Destek Vektör Regresyonu olarak isimlendirilmiştir. Destek Vektör sınıflamadan farklı olarak Destek Vektör Regresyonda amaç elde edilecek f(x) fonksiyonu ile gerçek y i çıktı değerlerinin en fazla ε miktarı kadar sapma ile tahmin edilmesi ve bulunan bu fonksiyona paralel olan ve eğitim girdilerini kapsayan iki düzlem arasındaki mesafenin minimum yapılmasıdır (Bilişik 2011). Destek vektör sınıflama ve regresyon modellerinin başarısı genellikle uygun model parametrelerinin seçimine bağlıdır. En uygun model parametrelerini bulmak için hiperparamatre optimizasyon yöntemleri arasında sayılan grid arama yöntemleri kullanılmaktadır (Wang ve Zongben 2004).

8 192 Songül ÇINAROĞLU Destek Vektör Regresyonda bir grup veriyi uzayda en fazla epsilon kadar hata ile tahmin eden mümkün olan en doğrusal fonksiyonu bulmak amaçlanmaktadır. Burada epsilon değeri regresyon modelinin duyarlılığını belirlemektedir. Destek Vektör Regresyon yönteminde ± epsilon aralığında kalan alan epsilon olarak tanımlanmaktadır. Epsilon dışında kalan noktalar ise destek vektörleri olarak isimlendirilmektedir. Destek Vektör Regresyon yönteminde destek vektörlerden yararlanılarak en uygun model bulunmaya çalışılmaktadır. En iyi model en fazla veriyi Şekil 2 de görülen epsilon tüpü içerisinde konumlandıran modeldir (Coşgun ve Karaağaoğlu 2011; Kazem vd. 2013; Kavousi-Fard vd. 2014). Şekil 2 Destek Vektör Regresyonda Epsilon ve Destek Vektörleri Kaynak: Scholkopf B. Smola A.J. (2001) Learning with Kernels: Support Vector Machines, Ragularization, Optimization and Beyond, MIT Press, Cambridge, USA. Bu yöntem, doğrudan ilişkili olmayan veriler için verinin bir Kernel fonksiyonu aracılığıyla girdi uzayından daha yüksek boyutlu olan bir uzaya dönüştürülmesini gerektirmektedir. Yöntemin olumlu yönleri arasında yüksek boyutlu özellik uzayına eşleşme sayesinde doğrusal olmayan verilerde de çalışması bulunmaktadır. Bunların yanı sıra destek vektör makinası genellenebilme özelliği sayesinde diğer teknikler içerisinde (yapay sinir ağları, karar ağacı gibi) daha iyi bir alternatif olarak kabul edilmektedir. Destek vektör regresyonu görüntü işleme, zaman serisi analizi ile gen

9 Comparison of Classical Regression Methods with Data Mining Regression Methods 193 ifade analizi gibi çeşitli tahmin sistemlerinde kullanılmaktadır (Coşgun ve Karaağaoğlu 2011; Kazem vd. 2013; Kavousi-Fard vd. 2014; Yılmaz vd. 2013). Destek vektör regresyon yönteminde model performansının incelenmesinde kullanılan temel performans ölçüm kriterleri arasında; Açıklayıcılık Katsayısı (Coefficient of Determination) (R 2 ), Ortalama Mutlak Hata (Mean Absolute Error-MAE) ve Ortalama Hata Kare Kökü (Root Mean Square Error-RMSE) bulunmaktadır. Bu performans ölçüleri içerisinde Açıklayıcılık Katsayısı istatistiksel modelde yapılan tahmin ile gerçek değer arasındaki ilişkiyi gösteren bir ölçüdür ve modelin değişkenliği ne kadar açıkladığını göstermektedir, bu katsayı Pearson korelasyon katsayısının karesidir. Çoklu doğrusal regresyonda Açıklayıcılık Katsayısı ( R 2 ) birden çok bağımsız değişkenin bağımlı değişkeni açıklama miktarını verir. Regresyon denkleminin uygunluk ölçüsü olarak da kullanılan açıklayıcılık katsayısı regresyon modeli ile açıklanabilen değişimin toplam değişim içindeki yüzdesidir. Diğer bir deyişle y bağımlı değişkenindeki varyansın bağımsız değişkenlerce açıklanan miktarıdır. Bu değer 0 ile +1 arasında değişmekle birlikte, değerin 0 a yaklaşması modelin veriye uyum sağlamadığını ortaya koymaktadır (Alpar 2011). Açıklayıcılık katsayısı olarak %75 iyi bir oran olarak kabul edilmekle birlikte bir diğer performans ölçüsü olan MAE ise hataların mutlak değerlerinin ortalamasıdır. Bu değer tahmin ile gerçek değerler arasındaki uyumu göstermektedir. Wang ve Xu (2004) tarafından belirtildiği üzere MEA ve RMSE için y i tahmin, d i ise ölçüm sonucunu göstermek üzere RMSE ile MEA eşitlik (3) ile (4) de aşağıdaki şekilde formüle edilebilmektedir. RMSE değerinin sıfıra eşit olması durumunda oluşturulan modelin mükemmel olduğu söylenebilmekte iken MEA ise RMSE ye göre göreceli olarak daha düşük değerler almakla birlikte daha düşük MEA değerlerinin daha iyi performans sonucuna işaret ettiği söylenebilmektedir (Wang 2004). RMSE = 1 n (y n i=1 i d i ) 2 (3)

10 194 Songül ÇINAROĞLU n MAE = 1 abs (y n i=1 i d i ) (4) Destek vektör regresyonu ile diğer regresyon modellerinin performans sonuçlarının karşılaştırılmasında kullanılan optimizasyon yöntemlerinden birisi k-parça çapraz geçerlilik yaklaşımıdır. Bu yaklaşımda 10 parça çapraz geçerlilik kullanıldığında veri seti rastgele 10 eşit parçaya ayrılmakta, ilk aşamada birinci parça test veri seti olarak kullanılmakta, geriye kalan dokuz parça eğitim veri seti olarak kullanılmaktadır. İkinci aşamada ise ikinci parça test veri seti olarak kullanılmakta, geriye kalan dokuz parça ile model bulunmaktadır. Bu süreç 10 parça ayrı ayrı test seti olarak kullanılıncaya kadar devam etmektedir. Çapraz geçerlilik yöntemleri içerisinde en fazla kullanılan yaklaşım 10 parça çapraz geçerlilik yaklaşımıdır (Coşgun ve Karaağaoğlu 2011). Bir optimizasyon yöntemi olarak çapraz geçerliliği kullanarak model performansını inceleyen araştırmacılar arasında bulunan Larson (1931) tarafından belirtildiği üzere çapraz geçerlilikte k parametresi yükseltildikçe daha yüksek bir model performansı elde edildiği gözlemlenebilmektedir. Copas (1983) tarafından sağlık harcamalarını belirlemeye yönelik olarak oluşturulan regresyon modellerinde model performansını yükselttiği görülen bu yaklaşıma Copas testi denilmiştir. Bu yaklaşım sağlık ekonometrisi alanında yaygın bir kullanım alanı bulmuş olup, Bilger ve Manning (2005), Harrell vd. (1996) ile Bolugh vd. (1999) tarafından da kullanılagelmiştir. Literatür incelendiğinde Destek Vektör Makinası ile diğer sınıflama ve regresyon modellerinin karşılaştırıldığı çalışmalarda verinin tür ve büyüklüğüne göre farklı performans sonuçlarının elde edildiği görülmüştür. Buna göre Destek Vektör Makinası sınıflama performansı ile Random Forest sınıflama performansını karşılaştıran ve gen ekspresyon verilerinin kullanıldığı Statnikov vd. (2007) tarafından yapılan bir çalışmada, 10 parça çapraz geçerlilik uygulanarak model performansının optimize edilmesi sağlanmıştır. Çalışma sonucunda Random Forest sınıflama performansının oldukça yüksek olduğu belirtilmiştir. Diaz-Uriarte vd. (2006) tarafından yapılan ve teşhis ve tedavi gruplarının karşılaştırıldığı başka bir çalışmada ise Random Forest

11 Comparison of Classical Regression Methods with Data Mining Regression Methods 195 sınıflama performans sonuçlarının daha iyi olduğu yönünde bulgular elde edilmiştir. Literatür incelendiğinde Destek Vektör Makinası ile diğer sınıflama ve regresyon modellerini karşılaştıran çalışmalarda daha çok tıbbi teşhis ve tedavi süreçleri ile ilgili verilerin kullanıldığı görülmüş olup, sağlık harcaması değişkeni kullanarak yapılmış herhangi bir karşılaştırmaya rastlanmamıştır. Bu nedenle bu çalışmada Dünya Bankası (World Bank-WB) na üye olan toplam 214 ülke için sağlık harcamalarını belirlemeye yönelik olarak oluşturulan Çoklu Doğrusal Regresyon, Regresyon Ağacı, Random Forest Regresyon ve Destek Vektör Makinası Regresyonu yöntemlerinin performans sonuçlarının karşılaştırmalı olarak incelenmesi amaçlanmıştır. 2. GEREÇ VE YÖNTEMLER 2.1. VERİ SETİ Araştırmada kullanılan veri seti 2013 yılı itibariyle Dünya Bankası na üye olan toplam 214 ülkeye aittir. Veriler Dünya Bankası internet sitesinde temin edilmiş olup (WB 2016), sağlık harcamalarının tahminine yönelik olarak oluşturulan regresyon modelinde bağımlı değişken olarak kişi başı toplam sağlık harcaması değişkeni kullanılmıştır. Yapılan literatür incelemesi sonucunda kişi başı sağlık harcamasını belirlediği düşünülen bağımsız değişkenler ise (Martin vd. 2011; Murthy ve Okunade 2009; Varlamova vd. 2015); gelir grubu, coğrafi bölge, 65 yaş üzeri toplam nüfus, doğuşta beklenen yaşam süresi ile toplam nüfus olarak belirlenmiştir. Çalışmaya dahil edilen bu değişkenlere ait açıklamalar Tablo 1 de sunulmuştur. Buna göre araştırmaya dahil edilen beş bağımsız değişkenden ikisi kategorik formda iken diğer üç bağımsız değişkenin sayısal formda olduğu görülmektedir.

12 196 Songül ÇINAROĞLU Tablo 1 Değişkenlere Ait Açıklamalar Türü Değişken Açıklama Kaynak Kısaltma Yıl Bağımsız, Kategorik Gelir Grubu Coğrafi Bölge 65 yaş üzeri nüfus Dünya Bankası Tarafından Belirlenen Ülke Gelir Grupları ($) Dünya Bankası Tarafından Belirlenen Coğrafi Bölge Grupları Toplam nüfus içerisinde 65 yaş ve üzeri nüfus yüzdesi (%) Dünya Bankası GELIR_GR 2013 Dünya Bankası COG_BOL 2013 Dünya Bankası NUF_ Bağımsız, Sayısal Doğuşta beklenen yaşam süresi Ülke genelinde tüm nüfus için doğumda beklenen yaşam süresi (Yıl) Dünya Bankası DOG_B_YS 2013 Bağımlı, Sayısal Toplam nüfus Ülke genelinde toplam nüfus Dünya Bankası TOP_NUF 2013 Kişi Başı Sağlık Harcaması Özel ve kamu sağlık harcaması toplamının toplam nüfusa oranı ($) Dünya Bankası KBSH VERİLERİN ANALİZİ Verilerin analizine değişkenlere ait tanımlayıcı bilgilerin elde edilmesi ile başlanmıştır. Daha sonra bu çalışmada kullanılan bağımsız değişkenler arasındaki çoklu doğrusal bağlantı durumu korelasyon analizi kullanılarak incelenmiştir. Yapılan incelemede bağımsız değişkenler arasındaki ilişkide çoklu bağlantı sorununa neden olacak derece güçlü bir ilişkinin bulunmadığı ve regresyon modelinin kurulması için gerekli olan bu varsayımın sağlandığı görülmüştür. Bir sonraki aşamada bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine ait dağılım incelenmiş değişken dağılımının sağa çarpık dağılım özelliği gösterdiği görülmüştür. Çalışmada kişi başı sağlık harcaması değişkenini tahmin etmeye yönelik olarak bir çoklu regresyon modelinin kurulması hedeflendiğinden model performansını yükseltmek amacıyla bağımlı değişkene logaritmik ve Box-Cox dönüşümleri uygulanmıştır. Bir sonraki aşamada kişi başı sağlık harcaması değişkenini tahmin etmek amacıyla kurulan ve eşitlik (5) ve (6) da görülen çoklu regresyon modellerine ait performanslar Çoklu Doğrusal Regresyon, Regresyon Ağacı, 10 ağaç türetilerek elde edilen Random Forest Regresyon ve Destek Vektör Regresyonu kullanılarak incelenmiştir. Bu çalışmada kurulan regresyon modelinde logaritmik ve Box-Cox dönüşümleri uygulanarak elde edilen kişi başı sağlık harcaması değişkeninin bağımlı değişken olarak yer aldığı iki farklı regresyon modeli oluşturulmuştur. Bu modellerde x 1, x 2, x 3 ve x 4 değişkenleri

13 Comparison of Classical Regression Methods with Data Mining Regression Methods 197 sırasıyla doğuşta beklenen yaşam süresi, 65 yaş üzeri nüfus, toplam nüfus, gelir grubu ve coğrafi bölge değişkenlerini temsil etmektedir. y log = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 (5) y Box Cox = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 (6) Farklı regresyon modellerine ait performansların karşılaştırılmasında performans ölçüsü olarak RMSE, MAE ve R 2 kullanılmıştır. 3 ile 65 arasında değişmek üzere farklı k parametreleri kullanılarak kaydedilen performans sonuçları arasındaki farklılıklar grafiksel olarak gösterilmiş olup, logaritmik ve Box-Cox dönüşümlerinin uygulanması durumunda farklı regresyon modellerine ait ortalamalar arasındaki farklılıklar iki ortalama arasındaki farkın önemlilik testi ile incelenmiştir. 3. BULGULAR 3.1 TANIMLAYICI BİLGİLER 2013 yılı itibariyle Dünya Bankası na üye olan 214 ülke için sağlık harcamalarının tahminine yönelik olarak oluşturulan regresyon modelinde kullanılan bağımlı ve bağımsız değişkenlere ait tanımlayıcı bilgiler Tablo 2 de görülebilmektedir. Buna göre, sağlık harcamalarının tahminine yönelik olarak kurulan regresyon modelinde bağımlı değişken olarak kullanılan kişi başı sağlık harcaması ortalaması 1021,23 (±1769,73) dir. Bağımsız değişkenlere ait tanımlayıcı istatistikler incelendiğinde ise doğuşta beklenen yaşam süresi ortalaması 71,25 (±8,23), 65 yaş üzeri nüfus yüzdesi ortalama 7,86 (±5,36), ülke genelinde toplam nüfus ortalaması ise ,63 (± ,41) dir.

14 198 Songül ÇINAROĞLU Tablo 2 Sayısal Değişkenlere Ait Tanımlayıcı Bilgiler Türü Değişken N Min. Mak. Ort. Ss. Bağımlı Değişken Bağımsız Değişkenler Kişi Başı Sağlık Harcaması , ,73 Doğuşta beklenen yaşam süresi ,25 8,23 65 yaş üzeri nüfus ,86 5,36 Toplam nüfus , ,41 Sağlık harcamalarının tahmininde kullanılan bağımsız değişkenler içerisinde kategorik formda bulunan değişkenlerden gelir grubu ile coğrafi bölge değişkenlerine ait tanımlayıcı bilgiler Tablo 3 de sunulmuştur. Dünya Bankası ülkeleri gelir gruplarına göre sınıflandırırken düşük gelir (DG), orta gelir (OG) ve yüksek gelir (YG) olmak üzere üç gelir grubu belirlemiş, orta gelir grubunda yer alan ülkeleri de kendi içerisinde düşük orta gelir (DOG) ve yüksek orta gelir (YOG) olmak üzere iki gruba ayırmıştır. Bu sınıflamada 1.045$ ve daha az gelire sahip olan ülkeler düşük gelir grubunda, 1.046$ DOG<4.125$ aralığında bulunan ülkeler düşük orta gelir grubunda, 4.125$ YOG<12.746$ aralığında bulunan ülkeler yüksek orta gelir grubunda, $ ve üzerinde gelire sahip olan ülkeler ise yüksek gelir grubunda ülkeler olarak isimlendirilmiştir. Bu çalışmada ise toplam 214 ülke içerisinden düşük gelir grubunda 31(+14,5), düşük orta gelir grubunda 51 (%23,8), yüksek orta gelir grubunda 53 (%24,8) ve yüksek gelir grubunda bulunan 79 (%36,9) ülke olduğu tespit edilmiştir. Buna göre çalışma kapsamında incelenen ülkelerin en fazla yüksek gelir grubunda yer alan ülkelerden oluştukları söylenebilmektedir. Bu çalışmada kullanılan ve kategorik formda bulunan bir diğer değişken olan coğrafi bölge değişkeni incelendiğinde ise Doğu Asya ve Pasifik te konumlanmış 36 (16,8), Avrupa ve Merkezi Asya da 57 (%26,6), Latin Amerika ve Karayipler de 41 (%19,2), Orta ve Kuzey Afrika da 21 (%9,8), Kuzey Amerika da 3 (%1,4), Güney Asya da 8 (%3,7) ve Sahra Altı Afrika da yer alan 48 (%22,4) ülke bulunduğu görülmektedir. Buna göre Dünya Bankası na üye olan ülkelerin daha çok Avrupa ve Merkezi Asya da konumlandıkları söylenebilmektedir. Kategorik değişkenlere ait tanımlayıcı bilgiler genel olarak

15 Comparison of Classical Regression Methods with Data Mining Regression Methods 199 değerlendirildiğinde ise çalışma kapsamındaki ülkelerin daha çok gelir seviyesi yüksek olan Avrupa ve Merkezi Asya ülkelerini temsil ettikleri görülmektedir. Tablo 3 Kategorik Değişkenler Ait Tanımlayıcı Bilgiler Değişken Gelir Grubu Sıklık % Düşük Gelir (DG) 31 14,5 (DG 1.045$) Düşük Orta Gelir (DOG) 51 23,8 (1.046$ DOG<4.125$) Yüksek Orta Gelir (YOG) 53 24,8 (4.125$ YOG<12.746$) Yüksek Gelir (YG) 79 36,9 (YG $) Toplam Coğrafi Bölge Sıklık % Doğu Asya ve Pasifik 36 16,8 Avrupa ve Merkezi Asya 57 26,6 Latin Amerika ve Karayipler 41 19,2 Orta Doğu ve Kuzey Afrika 21 9,8 Kuzey Amerika 3 1,4 Güney Asya 8 3,7 Sahra Altı Afrika 48 22,4 Toplam BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ İLİŞKİLERİN DOĞRUSAL BAĞIMLILIK BAKIMINDAN İNCELENMESİ Çoklu doğrusal regresyon modellerinde bağımsız değişkenlerin yüksek derecede ilişkili olmaması istenmektedir. Bunun nedeni regresyon modellerinde bağımsız değişkenler arasındaki ilişkinin çok belirgin olması durumunda bir bağımsız değişkenin diğer bağımsız değişken ya da değişkenlerin bir doğrusal fonksiyonu olarak yazılabilmesidir. Böylesi bir durumda bağımsız değişkenler arasında bir doğrusal bağımlılıktan söz etmek mümkün olacaktır ve regresyon katsayıları bulunamayacaktır 14. Bu nedenle regresyon modeli kurulmadan önce değişkenler arasındaki ilişkilerin incelenmesi önerilmektedir. Korelasyon katsayıları değişkenler arasındaki ilişkinin derecesi ve

16 200 Songül ÇINAROĞLU kuvveti hakkında bilgi veren ölçülerdir. Korelasyon katsayıları içerisinde Spearman korelasyon katsayısı (r s ) değişkenlerden en az bir ya da birkaçının normal dağılmadığı, değişkenler arasındaki ilişkinin doğrusallıktan hafif bir şekilde saptığı durumlarda kullanılan bir korelasyon katsayısı türüdür (Manning 2006). Bu çalışmada ise bağımsız değişkenler içerisinde çarpık dağılıma sahip olan değişkenler bulunduğundan dolayı değişkenler arasındaki ilişkiler Spearman korelasyon katsayısı kullanılarak incelenmiştir. Bağımsız değişkenler arasındaki ilişkilere ait korelasyonlar Grafik 1 de sunulmuş olan korelogram grafiğinde görülebilmektedir. Buna göre bağımsız değişkenler arasında doğrusal bağımlılığa işaret edecek derecede yüksek korelasyonların olmadığı ( r s <0.70) görülmektedir. Bu sonuç seçilen bu bağımsız değişkenlerin regresyon modeline katılmasında bir engel olmadığını ortaya koymaktadır. Bir sonraki aşamada regresyon modeli performansının iyileştirilmesi amacıyla bu çalışmada bağımlı değişken olarak kullanılacak olan sağlık harcaması değişkenine ait dağılım normalleştirilmiştir. Grafik 1 Bağımsız Değişkenler Arasındaki İlişkileri Gösteren Korelogram Grafiği

17 Comparison of Classical Regression Methods with Data Mining Regression Methods SAĞLIK HARCAMASI DEĞİŞKENİNE AİT DAĞILIMIN NORMALLEŞTİRİLMESİ Bu çalışmada bağımlı değişken olarak yer alan kişi başı sağlık harcaması değişkeni ile ilgili olarak literatürde bu değişkene ait dağılımın sağa çarpıklık özelliği gösterdiği belirtilmektedir. Doğrusallıktan ayrılmayı beraberinde getirerek regresyon modelinin performansını olumsuz olarak etkileyen bu durum ile başa çıkabilmek için logaritmik dönüşüm, Box-Cox dönüşümü, Gamma-log dönüşüm gibi farklı dönüşüm yaklaşımlarının uygulanması tavsiye edilmektedir (Basu ve Manning 2009). Bu yaklaşımlar içerisinde logaritmik dönüşüm en fazla kullanılan yaklaşım olmakla birlikte sağlık harcamalarının modellenmesi konusunda öncü çalışmalar yapan Manning ve Mullahy (2001) ve Basu ve Manning (2009) tarafından önerildiği üzere Box-Cox dönüşümü kullanılarak regresyon model performansının iyileştirilmesi sağlanabilmektedir. Logaritmik dönüşüm uygulanarak, doğrusallaştırılamayan modellerin doğrusallaştırılması mümkün olabilmektedir. Bu sayede model performansı yükseltilmektedir. Sağlık harcamaları gibi pozitif çarpık dağılımları simetriye yakın bir dağılım haline getirmek için logaritmik dönüşümden sıklıkla yararlanılmaktadır (Alpar 2011; Manning ve Mullahy 2001). Bir diğer alternatif ise logaritmik dönüşümün özel bir türü olan Box-Cox dönüşümüdür. Değişken dağılımının normal dağılıma uygun olmaması durumunda sıklıkla kullanılan bu dönüşüm, varyansın bağımlı değişkenin artan değerlerine paralel olarak arttığı durumlarda kullanılmakla birlikte pozitif değerli değişkenlere uygulanabilmektedir (Albayrak 2008). Box-Cox dönüşümü (7) nolu eşitlikte görüldüğü gibi tanımlanmaktadır (Basu ve Manning 2009). (y λ 1) = xβ + ε eğer λ 0 f(y) = { λ log(y) = xβ + ε eğer λ = 0 (7)

18 202 Songül ÇINAROĞLU Sağlık harcamalarının konu edinildiği regresyon modellerinde Box-Cox dönüşümünün uygulanmasının sağladığı avantajlara değinen Manning (2006) tarafından belirtildiği üzere Box-Cox dönüşümü özellikle λ<1 olduğunda, sağlık harcaması dağılımın sağa çarpıklık özelliğinin üstesinden gelebilmektedir. Çok küçük λ değerlerine sahip olunduğunda ise sağa çarpık dağılımın sola çarpık hale gelmesi mümkün olabilmektedir. Sağlık harcamalarının analizinde Box-Cox yaklaşımının kullanılması ile ilgili tek sorun ise parasal tutarlar ile ifade edilen sağlık harcamalarının dönüşüm sonrasında logaritmik formda yorumlanmasında karşılaşılan güçlüktür. Bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine ait dağılımın normal dağılıma uygunluğu gözlem sayısının parametrik testlerin uygulanmasına imkan vermemesinden (n 30) dolayı Kolmogorov-Smirnov (K-S) testi ile incelenmiştir. Elde edilen test istatistiği 0,29 olup bu istatistiğe ilişkin p değerinin ise 0,01 den küçük olduğu tespit edilmiştir. Bu sonuç dağılımın normal dağılıma uygun olmadığını ortaya koymuştur. Bu nedenle kişi başı sağlık harcaması değişkenine iki farklı dönüşüm uygulanmış, öncelikle bu değişkenin doğal logaritması alınmış daha sonra ise Box-Cox dönüşümü uygulanarak değişken dağılımı incelenmiştir. Yapılan inceleme sonucunda logaritmik dönüşüm ile Box-Cox dönüşümlerinin değişken dağılımını normal dağılıma yaklaştırdığı gözlemlenmiştir. Bu nedenle kurulacak regresyon modellerinden daha yüksek performans elde edebilmek amacıyla bağımlı değişkene logaritmik ve Box-Cox dönüşümü uygulanmış formu kullanılarak elde edilen model performanslarının karşılaştırmalı olarak incelenmesine karar verilmiştir. 6. KİŞİ BAŞI SAĞLIK HARCAMALARININ TAHMİNİNDE DESTEK VEKTÖR REGRESYONU İLE DİĞER REGRESYON MODELLERİ KULLANILARAK ELDE EDİLEN PERFORMANS SONUÇLARININ KARŞILAŞTIRILMASI Tablo 4 ve 5 de bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine logaritmik dönüşüm ve Box-Cox dönüşümleri uygulandıktan

19 Comparison of Classical Regression Methods with Data Mining Regression Methods 203 sonra farklı regresyon yöntemlerine göre elde edilen performans sonuçları R 2, RMSE ve MEA dikkate alınarak değerlendirilmiştir. Bu değerlendirmelerde aynı zamanda performans sonuçlarının optimizasyonu amacıyla 5 ile 65 arasında değişen 13 farklı k parametresi belirlenerek k parça çapraz geçerlilik uygulanmıştır. Logaritmik ve Box-Cox dönüşümlerinin uygulanması ve farklı performans ölçülerinin belirlenmesi durumunda elde edilen performans sonuçları genel olarak değerlendirildiğinde her iki dönüşüm yöntemi uygulandığında da Destek Vektör Regresyonu kullanılarak elde edilen performans sonuçlarının diğer yöntemlere göre daha iyi olduğu dikkat çekmektedir. Bu amaçla çizilen Grafik 2 incelendiğinde ve çoklu açıklayıcılık katsayısının 1 e yaklaşması durumunda bunun daha yüksek bir model performansı elde edilmesi anlamına geldiği göz önünde bulundurulduğunda (Chai ve Deraxler 2014) Destek Vektör Regresyonu kullanılarak elde edilen performans sonuçlarının farklı k parametre değerleri uygulandığında diğer regresyon yöntemlerine göre daha yüksek performans sergilediği (R 2 >0.70) görülmektedir. Farklı dönüşüm yaklaşımları kullanılarak elde edilen bu sonuçlar genel olarak incelendiğinde Box-Cox dönüşümü uygulandıktan sonra elde edilen sonuçların, logaritmik dönüşüm sonrası elde edilen performans sonuçlarından daha yüksek çoklu açıklayıcılık katsayısı değerlerine işaret ettiği görülmektedir. Grafik 3 de bağımlı değişkene logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemleri kullanılarak ve farklı k parametreleri belirlenerek elde edilen RMSE değerlerine yer verilmiştir. Daha düşük RMSE değerlerinin daha yüksek performansa işaret ettiği göz önünde bulundurulduğunda her iki dönüşüm yöntemi kullanıldığında da Destek Vektör Makinası regresyona ait sonuçların düşük değerlere sahip olduğu ve daha iyi performans sergilediği görülmektedir.

20

22

23 RMSE RMSE Çoklu Açıklayıcılık Katsayısı Çoklu Açıklayıcılık Katsayısı Grafik 2 Bağımlı Değişkene Log ve Box-Cox Dönüşümlerinin Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen R 2 de Değişim Log_KBSH Box-Cox_KBSH k parça çapraz geçerlilik k parça çapraz geçerlilik Destek Vektör Regresyonu Random Forest Regresyon (Ağaç Sayısı 10) Regresyon Ağacı Çoklu Doğrusal Regresyon Destek Vektör Regresyonu Random Forest Regresyon (Ağaç Sayısı 10) Regresyon Ağacı Çoklu Doğrusal Regresyon Grafik 3 Bağımlı Değişkene Log ve Box-Cox Dönüşüm Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen RMSE Değerlerinde Değişim Log_KBSH Box-Cox_KBSH k parça çapraz geçerlilik k parça çapraz geçerlilik Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Ekonomik Yaklaşım ISSN print 2016 Ekonomik Yaklaşım Derneği / Association - Ankara Her hakkı saklıdır All rights reserved

24 MEA MEA 206 Songül ÇINAROĞLU Grafik 4 de regresyonda model performansının belirlenmesinde yararlanılan bir diğer ölçü olan MEA açısından logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemleri kullanılarak elde edilmiş olan MEA değerlerine yer verilmiştir. 5 ile 65 arasında değişen sayılarda k parça çapraz geçerliliğin uygulandığı bu yönteme ait performans sonuçları genel olarak değerlendirildiğinde ve daha düşük MEA değerlerinin daha iyi performansa işaret ettiği göz önünde bulundurulduğunda, Destek Vektör Regresyonuna ait performans sonuçlarının en iyi olduğu söylenebilmektedir. Grafik 4 Bağımlı Değişkene Log ve Box-Cox Dönüşüm Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen MEA Değerlerinde Değişim Log_SH Box-Cox_SH k parça çapraz geçerlilik k parça çapraz geçerlilik Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Bu sonuçlar Destek Vektör Makinası Regresyonun kişi başı sağlık harcamasının tahmine yönelik olarak oluşturulacak regresyon modellerinin çözümünde kullanılabilecek etkin bir regresyon yöntemi olduğunu ortaya koymaktadır. Diğer taraftan k parça çapraz geçerlilikte k parametresinin yükselmesi durumunda bunun

25 Comparison of Classical Regression Methods with Data Mining Regression Methods 207 model performansının iyileşmesi anlamına geldiği düşünüldüğünde, daha yüksek k parametreleri belirlendiğinde veri setinin daha fazla parçaya ayrıldığı, her seferinde daha küçük bir parçanın dışarıda bırakılması yolu ile model kurulması nedeniyle giderek daha yüksek bir performans sonucu elde edildiği söylenebilmektedir. Bir sonraki aşamada farklı regresyon yöntemleri kullanılarak elde edilen regresyon modeli performans sonuçları arasında gözlemlenen farklılığın istatistiksel olarak anlamlılığının test edilmesi amacıyla uygulanan k parça çapraz geçerlilik sayısı 3 den 65 e kadar 2 şer aralıklarla değiştirilmiş ve performans sonuçları arasındaki farklılıklar kaydedilmiştir. Buna göre toplamda 32 farklı k parametresine göre belirlenmiş olan performans ölçülerinin karşılaştırılması için gerekli parametrik test varsayımlarının sağlandığı görüldüğünden dolayı Logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemlerine göre elde edilen performans sonuçları arasındaki farklılıklar bağımsız gruplarda iki ortalama arasındaki farkın önemlilik testi ile incelenmiştir. Bağımsız gruplar için t testinin uygulanmasından önce 3 ile 65 arasında değişen, 32 farklı k parametresi belirlenerek elde edilen performans sonuçlarına ait tanımlayıcı istatistikler Tablo 6 da sunulmuştur. Regresyon yöntemlerinin performans sonuçları bakımından karşılaştırılmasına ait yorumlamalarda, RMSE ve MAE değerlerinin sıfıra yaklaşması durumunda daha iyi bir model performansı elde edildiği, R 2 değeri için ise 0.75 ve üzerindeki değerlerin daha yüksek performans anlamına geldiği göz önünde bulundurulmuştur. Buna göre Çoklu Doğrusal Regresyon, Regresyon Ağacı, 10 ağaç türetilerek elde edilen Random Forest regresyon yöntemi ile Destek Vektör Makinası Regresyon yöntemleri kullanılarak elde edilen performans sonuçları incelendiğinde, RMSE ve MAE değerleri için logaritmik dönüşüm uygulanması sonrasında elde edilen performans sonucu ortalamalarının Box-Cox dönüşümü uygulanması sonrasında elde edilen performans sonuçlarına göre daha düşük değerlere işaret ettiği ve daha iyi olduğu gözlemlenmektedir. Diğer taraftan farklı regresyon yöntemlerine göre elde edilen R 2

26 208 Songül ÇINAROĞLU değerlerinin benzer olduğu görülmekle birlikte en yüksek ortalama R 2 değerlerinin Box-Cox dönüşümünün uygulandığı Destek Vektör Regresyonu yöntemine ait olduğu gözlemlenmektedir. Tablo 6 32 Farklı k Parametreleri Belirlenerek ve Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen Performans Sonuçlarına Ait Tanımlayıcı Bilgiler Regresyon Yöntemi Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon (10 Ağaç) Dönüşüm Yöntemi Logaritmik Dönüşüm Box-Cox Dönüşümü Logaritmik Dönüşüm Box-Cox Dönüşümü Logaritmik Dönüşüm Box-Cox Dönüşümü Destek Logaritmik Vektör Dönüşüm Regresyonu Box-Cox Dönüşümü Performans Ölçüsü n Min. Mak. Ort. Ss. RMSE 32 0,4153 0,4349 0,4172 0,0043 MEA 32 0,3287 0,3427 0,3304 0,0031 R ,5596 0,5985 0,5947 0,0085 RMSE 32 0,8841 0,9234 0,8881 0,0087 MEA 32 0,6989 0,7264 0,7024 0,0061 R ,5643 0,6006 0,5969 0,0080 RMSE 32 0,3762 0,4207 0,3932 0,0084 MEA 32 0,2825 0,3423 0,3085 0,0096 R ,5878 0,6705 0,6398 0,0154 RMSE 32 0,8118 0,8991 0,8426 0,0178 MEA 32 0,6309 0,7318 0,6616 0,0177 R ,5869 0,6633 0,6370 0,0155 RMSE 32 0,3504 0,3881 0,3675 0,0096 MEA 32 0,2665 0,2989 0,2822 0,0076 R ,6338 0,7141 0,6834 0,0187 RMSE 32 0,7445 0,8396 0,7810 0,0211 MEA 32 0,5615 0,6433 0,5992 0,0180 R ,6130 0,7168 0,6857 0,0215 RMSE 32 0,3360 0,3529 0,3469 0,0027 MEA 32 0,2644 0,2747 0,2681 0,0021 R ,7100 0,7372 0,7199 0,0044 RMSE 32 0,6997 0,7293 0,7215 0,0049 MEA 32 0,5263 0,5673 0,5586 0,0068 R ,7282 0,7498 0,7340 0,0036 Tablo 7 de kişi başı sağlık harcaması değişkenine logaritmik ve Box-Cox dönüşümü uygulandığında farklı regresyon yöntemleri kullanılarak elde edilen performans ölçülerine ait ortalamalar arasındaki farklılıkların iki ortalama arasındaki farkın önemlilik test ile incelenmesin yer verilmiştir. Buna göre çoklu doğrusal regresyon kullanıldığında logaritmik dönüşüm ve Box-Cox dönüşümlerinin uygulanması durumuna göre elde edilen performans ölçüleri içerisinde RMSE (t=-274,38, p<0.01) ve MAE (t=-309,27, p<0.01) ortalamaları arasındaki farkın istatistiksel olarak anlamlı

27 Comparison of Classical Regression Methods with Data Mining Regression Methods 209 olduğu görülmekte, benzer şekilde Regresyon Ağacı uygulandığında RMSE (t=- 129,03, p<0.01) ve MAE (t=-99,03, p<0.01) ortalamaları arasında farkın istatistiksel olarak anlamlı olduğu görülmektedir. 10 ağaç türetilerek elde edilen Random Forest regresyon performans sonuçları incelendiğinde ise RMSE (t=-100,88, p<0.01), MAE (t=-91,92, p<0.01) ortalamaları arasındaki farkların istatistiksel olarak anlamlı olduğu söylenebilmektedir. Tablo 7 32 Farklı k Parametreleri Belirlenerek ve Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen Performans Sonuçlarına İlişkin Ortalamaların Karşılaştırılması Regresyon Yöntemi Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon (10 Ağaç) Destek Vektör Regresyonu Performans Ölçüsü RMSE Dönüşüm Türü Ort. Ss. t p Logaritmik Dönüşüm 0,4172 0,0043 Box-Cox Dönüşümü 0,8881 0,0087 Logaritmik Dönüşüm 0,3304 0,0030 MEA Box-Cox Dönüşümü 0,7024 0,0060 Logaritmik Dönüşüm 0,5947 0,0085 R 2 Box-Cox Dönüşümü 0,5969 0,0080 RMSE Logaritmik Dönüşüm 0,3932 0,0083 Box-Cox Dönüşümü 0,8426 0,0178 Logaritmik Dönüşüm 0,3085 0,0095 MEA Box-Cox Dönüşümü 0,6616 0,0177 R 2 Logaritmik Dönüşüm 0,6398 0,0154 Box-Cox Dönüşümü 0,6370 0,0154 RMSE Logaritmik Dönüşüm 0,3675 0,0096 Box-Cox Dönüşümü 0,7810 0,0210 Logaritmik Dönüşüm 0,2822 0,0075 MEA Box-Cox Dönüşümü 0,5992 0,0179 R 2 Logaritmik Dönüşüm 0,6834 0,0187 Box-Cox Dönüşümü 0,6857 0,0215 RMSE Logaritmik Dönüşüm 0,3469 0,0027 Box-Cox Dönüşümü 0,7215 0,0049 MEA Logaritmik Dönüşüm 0,2681 0,0021 Box-Cox Dönüşümü 0,5586 0,0067 R 2 Logaritmik Dönüşüm 0,7199 0,0043 Box-Cox Dönüşümü 0,7340 0, ,38 < ,27 <0.01-1,09 0,27-129,03 < ,03 <0.01 0,71 0,47-100,88 < ,92 <0.01-0,45 0,65-378,27 < ,06 < ,19 <0.01 Logaritmik ve Box-Cox dönüşümleri uygulandığında elde edilen sonuçlar bir diğer regresyon yöntemi olan Destek Vektör Regresyonu bakımından incelendiğinde ise RMSE (t=-378,27, p<0.01), MAE (t=-232,06, p<0.01) ve R 2 (t=-14,19, p<0.01) olmak

28 210 Songül ÇINAROĞLU üzere tüm performans ölçülerine ait ortalamalar arasındaki farkın istatistiksel olarak anlamlı olduğu söylenebilmektedir. Farklı dönüşüm yaklaşımlarının uygulanmasına göre farklı regresyon yöntemleri kullanılarak elde edilen performans sonuçları arasındaki farklılıklar birlikte değerlendirildiğinde; diğer regresyon yöntemleri içerisinde Destek Vektör Regresyonuna ait tüm performans sonucuna ortalamalarının logaritmik ve Box-Cox dönüşümlerinin uygulanması durumuna göre istatistiksel olarak anlamlı farklılık gösterdiği söylenebilmektedir. 7. TARTIŞMA Literatürde sağlık harcamalarını konu edinen modelleme çalışmalarında model performansını olumsuz etkileyen temel konulardan birisi sağlık harcaması dağılımının sağa çarpık dağılım özelliği göstermesidir. Dağılımın normal dağılımdan uzaklaşmasına neden olan bu durum model performansını olumsuz etkilemekte, hedeflenen yüksek tahmin sonuçlarına erişilmesini güçleştirmektedir. Makro seviyelerde hanehalkı düzeyinde sağlık harcamasından, mikro seviyelerde herhangi bir hastalık ile ilgili maliyetlere kadar çeşitli türlerdeki sağlık harcamaları için geçerli olan bu sorunun üstesinden gelebilmek amacıyla sağlık ekonomistleri bazı dönüşüm yaklaşımlarının uygulanmasını tavsiye etmektedirler 41. Bu dönüşüm yaklaşımları içerisinde en fazla kullanılan dönüşümün logaritmik dönüşüm yaklaşımı olduğu bilinmekte olup, Manning (2006) tarafından önerilen alternatif bir yaklaşım ise Box- Cox dönüşümü yaklaşımıdır. Manning (2006) e göre Box-Cox dönüşümü sağlık harcaması dağılımının sağa çarpıklık özelliği ile başa çıkabilmekte ve bu sayede regresyon modellerinden daha yüksek bir performans elde edilmesi sağlanabilmektedir. Literatürde sağlık alanında veri madenciliği tekniklerini kullanan çalışmalardan daha çok hastalıkların teşhis ve tedavi grubu şeklinde sınıflandırılmasında yararlanıldığı görülmektedir. Bu çalışmalarda çoğunlukla klinik amaçlı veri ve bilgilerin kullanıldığı bilinmekte olup, sağlık harcamalarının tahmin edilmesine yönelik bir çalışmaya rastlanmamıştır. Klasik regresyon yöntemlerine göre bağımlı değişkenin tahmin

29 Comparison of Classical Regression Methods with Data Mining Regression Methods 211 edilmesinde önemli bir alternatif oluşturan veri madenciliği yöntemleri sayesinde daha güçlü tahminler yapılması, model performansının optimizasyonuna imkan veren yöntemlerin uygulanması mümkün olabilmektedir. Bu nedenle bu çalışmada Dünya Bankası na üye ülkeler için kişi başı sağlık harcamalarının tahmininde, gelir grubu, coğrafi bölge, 65 yaş ve üzeri nüfus, doğuşta beklenen yaşam süresi ve toplam nüfus değişkenleri bağımsız değişkenleri olarak kullanılmak üzere oluşturulan bir regresyon modelinin performansını incelenmesi amaçlanmıştır. Çoklu doğrusal regresyon, regresyon ağacı, 10 ağaç türetilerek elde edilen Random Forest regresyon ve Destek Vektör Makinası regresyon performansları karşılaştırılmıştır. Karşılaştırmalar 3 ile 65 arasında değişmek üzere farklı sayılarda k parametresi belirlenerek elde edilen sonuçlar üzerinden yapılmıştır. Performans ölçüsü olarak RMSE, MAE ve R 2 kullanılmıştır. Yapılan karşılaştırmalarda tüm regresyon yöntemleri içerisinde Destek Vektör Regresyonuna ait sonuçların en iyi performans sergilediği görülmüştür. Çalışmada ayrıca bağımlı değişken olan kişi başı sağlık harcaması değişkenine logaritmik dönüşüm uygulanması ile Box-Cox dönüşümü uygulanması sonrasında elde edilen regresyon performans sonuçları da dört farklı regresyon yöntemine göre karşılaştırmalı olarak incelenmiştir. Karşılaştırma sonuçları logaritmik dönüşüm ve Box-Cox dönüşümü uygulandığında, dört farklı regresyon yönteminden elde edilen RMSE ve MEA değerlerinin ortalamaları arasında istatistiksel olarak anlamlı bir farklılık bulunduğunu, Destek Vektör Regresyonu dışında diğer tüm regresyon yöntemleri için farklı dönüşüm yaklaşımlarının uygulanmasının R 2 değeri ortalamalarında istatistiksel olarak anlamlı bir farklılık yaratmadığı gözlemlenmiştir. Bu sonuçlara göre yalnızca Destek vektör regresyonu için logaritmik ya da Box-Cox dönüşümünün uygulanması durumuna göre, 32 farklı k parametresinin uygulanması sonucunda elde edilen RMSE, MAE ve R 2 değerlerine ait ortalamalar arasındaki farkın istatistiksel olarak anlamlı olduğu dikkat çekmektedir. Buna ek olarak Box-Cox dönüşümü kullanıldığında ve destek vektör regresyonu uygulandığında diğer regresyon modellerine göre daha iyi performans sonuçlarına erişildiği söylenebilmektedir.

Daha göster