eyd Ekonomik Yaklaşım Derneği / Association

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "eyd Ekonomik Yaklaşım Derneği / Association"

Transkript

1 eyd Ekonomik Yaklaşım Derneği / Association Ekonomik Yaklaşım 2016, 27(101): doi: /ey Sağlık Harcamasının Tahmininde Klasik Regresyon Yöntemleri İle Veri Madenciliği Regresyon Yöntemlerinin Karşılaştırılması Songül ÇINAROĞLU 1 14 Nisan 2016 da alındı; 04 Ekim 2016 da kabul edildi. 10 Ekim 2016 dan beri erişime açıktır. Received 14 April 2016; accepted 04 October Available online since 10 October Özet Araştırma Makalesi/Original Article Sağlık harcamaları ile ilgili analizlerde karşılaşılan temel güçlüklerden birisi sağlık harcaması dağılımının normal dağılım özelliği göstermeyerek aşırı sağa çarpık olmasıdır. Bu durum sağlık harcamalarını incelemek amacıyla oluşturulan regresyon modellerinde doğrusallıktan ayrılmayı beraberinde getirmekte ve regresyon modelinin performansının düşmesine neden olmaktadır. Klasik regresyon modellerinin performans sonuçlarını iyileştirmek amacıyla veri madenciliği temeline dayanan regresyon yöntemlerinin kullanımı sayesinde aşırı uyum sorununun üstesinden gelinebilmektedir. Regresyon ağacı, Random Forest Regresyonu ve Destek Vektör Regresyonu bu yaklaşımlardan bazılarıdır. Bu çalışmada 2013 yılı itibariyle Dünya Bankası na üye olan toplam 214 ülkeye ait veriler incelenerek kişi başı sağlık harcamasının tahmin edilmesine yönelik farklı regresyon yöntemi performans sonuçlarının karşılaştırılması amaçlanmıştır. Analiz öncesinde sağlık harcaması değişkenine ait dağılım logaritmik ve Box-Cox dönüşümleri uygulanarak normalleştirilmiştir. Çalışmada sağlık harcamalarını tahmin etmek amacıyla Çoklu Doğrusal Regresyon, Regresyon Ağacı, Random Forest Regresyon ve Destek Vektör Regresyonu yöntemleri kullanılmıştır. Tahmin performanslarının değerlendirilmesi amacıyla R 2, RMSE ve MAE değerlerinden yararlanılmıştır. Performans sonuçları farklı sayılarda belirlenen k parametrelerinden elde edilen çapraz geçerlilik değerleri üzerinden karşılaştırılmıştır. Elde edilen bulgular kişi başı sağlık harcaması değişkenine Box- Cox dönüşümü uygulandığında ve çapraz geçerlilikte k parametresi arttırıldığında Destek Vektör Regresyonu 1 Yazışmadan sorumlu yazar (Corresponding author). Hacettepe Üniversitesi İİBF Sağlık İdaresi Bölümü Beytepe, Ankara cinaroglus@hotmail.com Ekonomik Yaklaşım ISSN print 2016 Ekonomik Yaklaşım Derneği / Association - Ankara Her hakkı saklıdır All rights reserved

2 186 Songül ÇINAROĞLU kullanılarak elde edilen performans sonuçlarının diğer regresyon yöntemlerine göre göreceli olarak daha iyi tahmin gücüne sahip olduğunu ortaya koymaktadır. Çalışma sonuçları diğer regresyon yöntemlerine göre Destek Vektör Regresyonunun daha iyi performans sergilediğini göstermektedir. İlerleyen araştırmalar için grid arama metodlarının kullanıldığı hiperparametre optimizasyon yöntemlerinden yararlanılarak Destek Vektör Regresyonu performansının daha detaylı olarak incelenmesi tavsiye edilmektedir. Anahtar Kelimeler: Çoklu Doğrusal Regresyon; Regresyon Ağacı; Random Forest Regresyon; Destek Vektör Regresyonu; Kişi Başı Sağlık Harcaması. JEL Kodları: C13, Q13, Q EYD tarafından yayımlanmıştır Abstract Comparison of Classical Regression Methods with Data Mining Regression Methods in Prediction of Health Expenditure One of the main difficulties about analyzing health expenditures is, the distribution of health expenditure is not normal and extremely positively skewed. This brings about overfitting problem and causes a decrease in regression model performance for predicting health expenditures. It is possible to use data mining based regression methods to improve classical regression model performances and overcome overfitting problem. Regression Tress, Random Forest Regression and Support Vector Regression are some of these methods. In this study it is aimed to compare prediction performances of different regression methods about predicting per capita health expenditures of member of total 214 World Bank countries. Before the analysis the distribution of health expenditure per capita normalized with using logarithmic and Box-Cox transformations. Multiple Linear Regression, Regression Tree, Random Forest Regression and Support Vector Machine Regression methods was used for prediction and R2, RMSE and MAE values are used for the assessment of prediction performances. Performance results are compared according to cross validation values determined by using different number of k parameters. Study findings show that prediction performance of Support Vector Regression is relatively higher compared with other regression methods when health expenditure per capita transformed by using Box-Cox transformation and when k parameter increases in cross validation. Study results show that Support Vector Regression prediction performance is higher than other regression methods. It is advisable for future studies to examine Support Vector Regression performances using grid search methods which are one of hyperparameter optimization techniques. Keywords: Multiple Linear Regression; Regression Tree; Random Forest Regression; Support Vector Regression; Health Expenditure per capita. JEL Codes: C10, C88, H Published by EYD Bu makalenin adını ve doi numarasını içeren aşağıdaki metni kolayca kopyalamak için soldaki QR kodunu taratınız. Scan the QR code to the left to quickly copy the following text containing the title and doi number of this article. Comparison of Classical Regression Methods with Data Mining Regression Methods in Prediction of Health Expenditure

3 Comparison of Classical Regression Methods with Data Mining Regression Methods GİRİŞ Sağlık harcamalarının seviyesi gelişmişlik ve refah düzeyinin önemli bir belirleyicisidir. Bu nedenle gelişmiş ülkelerden gelişmekte olan ülkelere doğru kaynak transferlerinin yapıldığı ve gelişmekte olan ülkelerde sağlık seviyesinin yükseltici politik uygulama ve tedbirler alındığı görülmektedir (Gottret 2006). Bu uygulamalarda odaklanılan temel konuların başında sağlık harcamalarını belirleyen değişkenlerin neler olduğu gelmektedir. Yapılan çalışmalar sağlık harcamalarını belirleyen temel değişkenlerin gelir seviyesi, toplam nüfus ve nüfusun yaş dağılımı, sağlık hizmetlerinin sunumu ve bu hizmetlere erişim düzeyi olduğunu göstermektedir (Martin vd. 2011). Sağlık harcamalarını tahmin etmede kullanılan değişkenler arasında yer alan gelir düzeyi arttıkça ülkelerin sağlık harcaması seviyesinin de yükseldiği görülmektedir (Makinen vd. 2000). Bir diğer değişken olan toplam nüfus ve nüfusun yaş dağılımı dikkate alındığında ise başta Avrupa ülkelerinde olmak üzere yaşlı nüfus artışının sağlık harcamalarında artışı beraberinde getirdiği söylenebilmektedir (Christensen vd. 2009). Sağlık harcamalarının modellendiği araştırmalarda karşılaşılan önemli bir sorun sağlık harcaması dağılımının normal dağılım özelliği göstermeyerek sağa çarpık dağılım özelliği göstermesidir (Manning 1998). Sağlık harcamalarının analizinde karşılaşılan bir diğer güçlük ise aşırı uyum sorunudur. Bu sorun bağımlı değişken ve bağımsız değişken(ler) arasındaki ilişkide doğrusallıktan ayrılmayı beraberinde getirmekte ve model performansının düşmesine neden olmaktadır (Manning, 1998; Manning ve Mullahy 2001; Harrell 2001). Sağlık harcamaları ile ilgili analizlerde sorun yaratan bu normal dağılımdan ayrılma durumu ile başa çıkabilmek için farklı dönüşüm yaklaşımları uygulanmaktadır. Bu sayede dağılımın normal dağılım haline dönüştürülmesi mümkün olabilmektedir. Sağlık harcamalarının konu edinildiği regresyon analizlerinde bağımlı değişken

4 188 Songül ÇINAROĞLU dönüşümleri, eş varyansla normal dağılan toplamsal artıklar ve bağımsız değişkenlerle temsil edilen basit bir doğrusal model elde etmek için yapılır (Hamasaki ve Goto 2005; Çelik ve Erar 2013). Sağlık harcamalarının incelenmesinde önde gelen araştırmacılar arasında bulunan Manning (1998), Jones vd. (2007), Baser (2007) tarafından önerildiği üzere bu farklı yaklaşımlar arasında ön plana çıkanlar arasında logaritmik dönüşüm ile Box-Cox dönüşümleri bulunmaktadır. Box-Cox dönüşümü 1964 yılında Box-Cox tarafından önerilmiş bir dönüşüm yaklaşımı olup normalite sınamasından geçemeyen verilere uygulanarak, serinin çarpıklığının giderilmesi amacıyla kullanılmaktadır (Box ve Cox 1964). Bu farklı dönüşüm yaklaşımları içerisinde sağlık ekonomistleri tarafından kabul edilen tek bir yaklaşım bulunmamakla birlikte, dağılımın normalleştirilmesi amacıyla deneme yanılma yönteminin izlenmesi tavsiye edilmektedir (Bilger ve Manning 2015). Sağlık harcamalarının tahmininde en fazla kullanılan regresyon modellerinden birisi çoklu doğrusal regresyon yaklaşımdır. Çoklu doğrusal regresyonda bağımlı değişkeni etkileyen çok sayıda bağımsız değişken bulunmaktadır. Bu çözümlemede, bağımlı değişken y iken, bağımsız değişkenler x 1, x 2, x 3. x p ile gösterilir. Çoklu doğrusal regresyonda y bağımlı değişkeni ile x 1, x 2, x 3. x p bağımsız değişkenleri arasındaki ilişki gözlemler cinsinden eşitlik (1) de görüldüğü gibi ifade edilebilmektedir (Alpar 2011). y i = β 0 + β 1 x i1 + β 2 x i2 +.+ β j x j β p x p2 + ε i (1) Bu eşitlikte β 0, β 1, β 2,.., β p bilinmeyenlerine regresyon katsayıları denilmektedir. Herhangi bir β j regresyon katsayısı, diğer değişkenler sabit tutulduğunda (diğer değişkenlerin etkisi ortadan kaldırıldığında) x j değişkeninde meydana gelen bir birimlik değişmeye karşılık y değişkeninde beklenen değişiklik miktarını vermektedir. ε i ise hata (yanılgı) terimidir. Çoklu regresyon denklemi

5 Comparison of Classical Regression Methods with Data Mining Regression Methods 189 yardımıyla, bağımlı değişkenin belirlenmesinde her bir bağımsız değişkenin göreceli önemi belirlenmiş olur. Bu bağlamda, çoklu doğrusal regresyonu basit doğrusal regresyondan ayıran özellik, her bir bağımsız değişken ile bağımlı değişken arasındaki ilişkilerin eşanlı olarak belirlenmesidir (Alpar 2011). Regresyon modellerinin oluşturulmasında kullanılan bir diğer yaklaşım ise Regresyon Ağacı (Regression Tree) yaklaşımıdır. Bu yaklaşımda CART (Classification and Regression Tree) algoritması kullanılmaktadır ve bağımsız değişkenlerin bağımlı değişken ile ilişkisini değerlendirmede ve model içindeki etkileşim yapısını ortaya koymada Regresyon Ağacı etkili bir yöntemdir (Witten vd. 2005; Chattamvelli 2009). Chattamvelli (2009) tarafından belirtildiği üzere CART algoritması kategorik ya da sürekli değişkenlerin kullanıldığı, bölünme türü olarak 2 li bölünme türünden yararlanılan, bölünme kriteri olarak Gini katsayısından yararlanılan bir karar ağacı algoritmasıdır. CART algoritması yalnızca regresyon amacıyla değil sınıflama amacıyla da kullanılmaktadır. Maksimum seviyede benzer alt sınıflar oluşturma ilkesine dayalı olarak çalışan regresyon ağacı algoritması, ağacın oluşturulması kısmında olabilecek en fazla sayıda alt ağacı belirlemektedir. Bu noktada alt ağaçlar arasında bağımlı değişken ile önemli ölçüde ilişkili olan ağaçları seçmek gerekmektedir. Bu nedenle bu algoritmanın ikinci kısmında budama modülü devreye girmektedir. Budama sonrasında en uygun ağaç yapısının seçimi gerçekleşmektedir. Bu yöntemin sürekli ya da kesikli bağımsız değişkenler ile model kurmaya imkan vermesi, normallik, homojenlik ve doğrusallık gibi varsayımların önemsenmemesi gibi nedenler ile kullanışlı bir yöntem olduğu söylenebilmektedir (Kayri ve Boysan 2008). CART algoritmasında kullanılan bilgi ölçüsü Gini Indeksi dir. Algoritmanın negatif yönlerinden birisi fazla sayıda kategori içeren girdi değişkenlerinin varlığında iyi performans sergileyememesidir. Bölünme kriteri olarak kullanılan Gini indeksi eşitlik (2) de görüldüğü gibi formüle edilebilmektedir (Coşgun ve Karaağaoğlu 2011). Gini Indeksi (D) = 1 - P J 2 n J=1 (2)

6 190 Songül ÇINAROĞLU CART algoritmasının kullanıldığı Regresyon Ağacı modellerinde ağaç sayısının arttırılması yolu ile regresyon modeli performans sonuçlarının optimize edilmesine dayanan bir yaklaşım ise Random Forest Regresyon (Random Forest Regression) yaklaşımıdır. Random Forest regresyonda daha fazla sayıda ağaç türetildiğinde daha yüksek model performansı elde edilmesi beklenmekle birlikte ağaç sayısındaki artışın veri setinin türü ve büyüklüğü ile bağlantılı olarak her zaman daha yüksek performans elde etmeyi garanti etmediği söylenebilmektedir (Oshiro vd. 2012). Bu nedenle farklı sayılarda ağaç türetilerek model performanslarının karşılaştırılması tavsiye edilmektedir. Modelin dezavantajları arasında tek bir karar ağacında olduğu gibi ortaya çıkan sonucun ağaç yapısı ile görsel olarak sunumunun mümkün olmaması ve modelin karmaşıklığı nedeniyle çok sayıda karar ağacının değerlendirilmesine ait işlem adımlarının görülmesine imkan vermemesi bulunmaktadır (Akman vd. 2011). Diğer regresyon modelleri içerisinde veri setinin türü ya da büyüklüğüne bağlı olarak doğrusallaştırılması mümkün olmayan modellerin doğrusallaştırılmasında kullanılan bir diğer yöntem Destek Vektör Makinası Regresyon yöntemidir. Destek Vektör Makinaları (DVM) son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemlerinin çözümünde kullanılmaktadır. Bu yöntem zaman içerisinde doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genişletilerek, bu problemlerin çözümünde yaygınlıkla kullanılmaya başlanmıştır (Yılmaz vd. 2013). Uygulamada daha çok sınıflama amacıyla kullanılan Destek Vektör Makinaları yardımı ile sınıflamada, en az iki grup sahip oldukları nitelikler bakımından doğrusal olan ve olmayan modeller şeklinde ayırt edilebilmektedir. Sınıflama amacıyla kullanılan modellerden daha çok sağlıkta hasta ve sağlıklı grupların ayırt edilmesinde yararlanılmaktadır (Yılmaz vd. 2013). Destek Vektör Makinalarının temelini verilerin bir düzlem ya da hiper düzlem kullanılarak ayırt edilmesi işlemi oluşturmaktadır. Bu yöntemde verileri çok boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En sık kullanılan çekirdek fonksiyonlar ise; doğrusal, çok

7 Comparison of Classical Regression Methods with Data Mining Regression Methods 191 terimli, radyal temel fonksiyonu (RTF) ve sigmoddir (Coşgun ve Karaağaoğlu 2011). Şekil 1 de iki sınıfa ait verileri ayırt edebilecek en uygun düzlemi veya hiper düzlemi belirlemek amacıyla grupların üç boyutlu uzaya aktarımı gösterilmiştir. Şekil 1 DVM da Grupların 3 Boyutlu Uzayda Hiperdüzlem Kullanılarak Ayırt Edilmesi 1.Grup 2.Grup Hiper düzlem Kaynak: Scholkopf B. Smola A.J. (2001) Learning with Kernels: Support Vector Machines, Ragularization, Optimization and Beyond, MIT Press, Cambridge, USA. Destek Vektör Makinaları ile ilgili ilk çalışmalar daha çok sınıflama amacıyla yapılmış olup zaman içerisinde özellikle zaman serilerinin tahmini ve regresyon uygulamalarında yüksek performans sonuçlarının elde edildiği görülmüştür (Bilişik 2011). Destek vektör makinelerinin regresyon için uyarlaması Vapnik vd. (1995; 1998; 1997) tarafından yapılmış olup bu uygulama Destek Vektör Regresyonu olarak isimlendirilmiştir. Destek Vektör sınıflamadan farklı olarak Destek Vektör Regresyonda amaç elde edilecek f(x) fonksiyonu ile gerçek y i çıktı değerlerinin en fazla ε miktarı kadar sapma ile tahmin edilmesi ve bulunan bu fonksiyona paralel olan ve eğitim girdilerini kapsayan iki düzlem arasındaki mesafenin minimum yapılmasıdır (Bilişik 2011). Destek vektör sınıflama ve regresyon modellerinin başarısı genellikle uygun model parametrelerinin seçimine bağlıdır. En uygun model parametrelerini bulmak için hiperparamatre optimizasyon yöntemleri arasında sayılan grid arama yöntemleri kullanılmaktadır (Wang ve Zongben 2004).

8 192 Songül ÇINAROĞLU Destek Vektör Regresyonda bir grup veriyi uzayda en fazla epsilon kadar hata ile tahmin eden mümkün olan en doğrusal fonksiyonu bulmak amaçlanmaktadır. Burada epsilon değeri regresyon modelinin duyarlılığını belirlemektedir. Destek Vektör Regresyon yönteminde ± epsilon aralığında kalan alan epsilon olarak tanımlanmaktadır. Epsilon dışında kalan noktalar ise destek vektörleri olarak isimlendirilmektedir. Destek Vektör Regresyon yönteminde destek vektörlerden yararlanılarak en uygun model bulunmaya çalışılmaktadır. En iyi model en fazla veriyi Şekil 2 de görülen epsilon tüpü içerisinde konumlandıran modeldir (Coşgun ve Karaağaoğlu 2011; Kazem vd. 2013; Kavousi-Fard vd. 2014). Şekil 2 Destek Vektör Regresyonda Epsilon ve Destek Vektörleri Kaynak: Scholkopf B. Smola A.J. (2001) Learning with Kernels: Support Vector Machines, Ragularization, Optimization and Beyond, MIT Press, Cambridge, USA. Bu yöntem, doğrudan ilişkili olmayan veriler için verinin bir Kernel fonksiyonu aracılığıyla girdi uzayından daha yüksek boyutlu olan bir uzaya dönüştürülmesini gerektirmektedir. Yöntemin olumlu yönleri arasında yüksek boyutlu özellik uzayına eşleşme sayesinde doğrusal olmayan verilerde de çalışması bulunmaktadır. Bunların yanı sıra destek vektör makinası genellenebilme özelliği sayesinde diğer teknikler içerisinde (yapay sinir ağları, karar ağacı gibi) daha iyi bir alternatif olarak kabul edilmektedir. Destek vektör regresyonu görüntü işleme, zaman serisi analizi ile gen

9 Comparison of Classical Regression Methods with Data Mining Regression Methods 193 ifade analizi gibi çeşitli tahmin sistemlerinde kullanılmaktadır (Coşgun ve Karaağaoğlu 2011; Kazem vd. 2013; Kavousi-Fard vd. 2014; Yılmaz vd. 2013). Destek vektör regresyon yönteminde model performansının incelenmesinde kullanılan temel performans ölçüm kriterleri arasında; Açıklayıcılık Katsayısı (Coefficient of Determination) (R 2 ), Ortalama Mutlak Hata (Mean Absolute Error-MAE) ve Ortalama Hata Kare Kökü (Root Mean Square Error-RMSE) bulunmaktadır. Bu performans ölçüleri içerisinde Açıklayıcılık Katsayısı istatistiksel modelde yapılan tahmin ile gerçek değer arasındaki ilişkiyi gösteren bir ölçüdür ve modelin değişkenliği ne kadar açıkladığını göstermektedir, bu katsayı Pearson korelasyon katsayısının karesidir. Çoklu doğrusal regresyonda Açıklayıcılık Katsayısı ( R 2 ) birden çok bağımsız değişkenin bağımlı değişkeni açıklama miktarını verir. Regresyon denkleminin uygunluk ölçüsü olarak da kullanılan açıklayıcılık katsayısı regresyon modeli ile açıklanabilen değişimin toplam değişim içindeki yüzdesidir. Diğer bir deyişle y bağımlı değişkenindeki varyansın bağımsız değişkenlerce açıklanan miktarıdır. Bu değer 0 ile +1 arasında değişmekle birlikte, değerin 0 a yaklaşması modelin veriye uyum sağlamadığını ortaya koymaktadır (Alpar 2011). Açıklayıcılık katsayısı olarak %75 iyi bir oran olarak kabul edilmekle birlikte bir diğer performans ölçüsü olan MAE ise hataların mutlak değerlerinin ortalamasıdır. Bu değer tahmin ile gerçek değerler arasındaki uyumu göstermektedir. Wang ve Xu (2004) tarafından belirtildiği üzere MEA ve RMSE için y i tahmin, d i ise ölçüm sonucunu göstermek üzere RMSE ile MEA eşitlik (3) ile (4) de aşağıdaki şekilde formüle edilebilmektedir. RMSE değerinin sıfıra eşit olması durumunda oluşturulan modelin mükemmel olduğu söylenebilmekte iken MEA ise RMSE ye göre göreceli olarak daha düşük değerler almakla birlikte daha düşük MEA değerlerinin daha iyi performans sonucuna işaret ettiği söylenebilmektedir (Wang 2004). RMSE = 1 n (y n i=1 i d i ) 2 (3)

10 194 Songül ÇINAROĞLU n MAE = 1 abs (y n i=1 i d i ) (4) Destek vektör regresyonu ile diğer regresyon modellerinin performans sonuçlarının karşılaştırılmasında kullanılan optimizasyon yöntemlerinden birisi k-parça çapraz geçerlilik yaklaşımıdır. Bu yaklaşımda 10 parça çapraz geçerlilik kullanıldığında veri seti rastgele 10 eşit parçaya ayrılmakta, ilk aşamada birinci parça test veri seti olarak kullanılmakta, geriye kalan dokuz parça eğitim veri seti olarak kullanılmaktadır. İkinci aşamada ise ikinci parça test veri seti olarak kullanılmakta, geriye kalan dokuz parça ile model bulunmaktadır. Bu süreç 10 parça ayrı ayrı test seti olarak kullanılıncaya kadar devam etmektedir. Çapraz geçerlilik yöntemleri içerisinde en fazla kullanılan yaklaşım 10 parça çapraz geçerlilik yaklaşımıdır (Coşgun ve Karaağaoğlu 2011). Bir optimizasyon yöntemi olarak çapraz geçerliliği kullanarak model performansını inceleyen araştırmacılar arasında bulunan Larson (1931) tarafından belirtildiği üzere çapraz geçerlilikte k parametresi yükseltildikçe daha yüksek bir model performansı elde edildiği gözlemlenebilmektedir. Copas (1983) tarafından sağlık harcamalarını belirlemeye yönelik olarak oluşturulan regresyon modellerinde model performansını yükselttiği görülen bu yaklaşıma Copas testi denilmiştir. Bu yaklaşım sağlık ekonometrisi alanında yaygın bir kullanım alanı bulmuş olup, Bilger ve Manning (2005), Harrell vd. (1996) ile Bolugh vd. (1999) tarafından da kullanılagelmiştir. Literatür incelendiğinde Destek Vektör Makinası ile diğer sınıflama ve regresyon modellerinin karşılaştırıldığı çalışmalarda verinin tür ve büyüklüğüne göre farklı performans sonuçlarının elde edildiği görülmüştür. Buna göre Destek Vektör Makinası sınıflama performansı ile Random Forest sınıflama performansını karşılaştıran ve gen ekspresyon verilerinin kullanıldığı Statnikov vd. (2007) tarafından yapılan bir çalışmada, 10 parça çapraz geçerlilik uygulanarak model performansının optimize edilmesi sağlanmıştır. Çalışma sonucunda Random Forest sınıflama performansının oldukça yüksek olduğu belirtilmiştir. Diaz-Uriarte vd. (2006) tarafından yapılan ve teşhis ve tedavi gruplarının karşılaştırıldığı başka bir çalışmada ise Random Forest

11 Comparison of Classical Regression Methods with Data Mining Regression Methods 195 sınıflama performans sonuçlarının daha iyi olduğu yönünde bulgular elde edilmiştir. Literatür incelendiğinde Destek Vektör Makinası ile diğer sınıflama ve regresyon modellerini karşılaştıran çalışmalarda daha çok tıbbi teşhis ve tedavi süreçleri ile ilgili verilerin kullanıldığı görülmüş olup, sağlık harcaması değişkeni kullanarak yapılmış herhangi bir karşılaştırmaya rastlanmamıştır. Bu nedenle bu çalışmada Dünya Bankası (World Bank-WB) na üye olan toplam 214 ülke için sağlık harcamalarını belirlemeye yönelik olarak oluşturulan Çoklu Doğrusal Regresyon, Regresyon Ağacı, Random Forest Regresyon ve Destek Vektör Makinası Regresyonu yöntemlerinin performans sonuçlarının karşılaştırmalı olarak incelenmesi amaçlanmıştır. 2. GEREÇ VE YÖNTEMLER 2.1. VERİ SETİ Araştırmada kullanılan veri seti 2013 yılı itibariyle Dünya Bankası na üye olan toplam 214 ülkeye aittir. Veriler Dünya Bankası internet sitesinde temin edilmiş olup (WB 2016), sağlık harcamalarının tahminine yönelik olarak oluşturulan regresyon modelinde bağımlı değişken olarak kişi başı toplam sağlık harcaması değişkeni kullanılmıştır. Yapılan literatür incelemesi sonucunda kişi başı sağlık harcamasını belirlediği düşünülen bağımsız değişkenler ise (Martin vd. 2011; Murthy ve Okunade 2009; Varlamova vd. 2015); gelir grubu, coğrafi bölge, 65 yaş üzeri toplam nüfus, doğuşta beklenen yaşam süresi ile toplam nüfus olarak belirlenmiştir. Çalışmaya dahil edilen bu değişkenlere ait açıklamalar Tablo 1 de sunulmuştur. Buna göre araştırmaya dahil edilen beş bağımsız değişkenden ikisi kategorik formda iken diğer üç bağımsız değişkenin sayısal formda olduğu görülmektedir.

12 196 Songül ÇINAROĞLU Tablo 1 Değişkenlere Ait Açıklamalar Türü Değişken Açıklama Kaynak Kısaltma Yıl Bağımsız, Kategorik Gelir Grubu Coğrafi Bölge 65 yaş üzeri nüfus Dünya Bankası Tarafından Belirlenen Ülke Gelir Grupları ($) Dünya Bankası Tarafından Belirlenen Coğrafi Bölge Grupları Toplam nüfus içerisinde 65 yaş ve üzeri nüfus yüzdesi (%) Dünya Bankası GELIR_GR 2013 Dünya Bankası COG_BOL 2013 Dünya Bankası NUF_ Bağımsız, Sayısal Doğuşta beklenen yaşam süresi Ülke genelinde tüm nüfus için doğumda beklenen yaşam süresi (Yıl) Dünya Bankası DOG_B_YS 2013 Bağımlı, Sayısal Toplam nüfus Ülke genelinde toplam nüfus Dünya Bankası TOP_NUF 2013 Kişi Başı Sağlık Harcaması Özel ve kamu sağlık harcaması toplamının toplam nüfusa oranı ($) Dünya Bankası KBSH VERİLERİN ANALİZİ Verilerin analizine değişkenlere ait tanımlayıcı bilgilerin elde edilmesi ile başlanmıştır. Daha sonra bu çalışmada kullanılan bağımsız değişkenler arasındaki çoklu doğrusal bağlantı durumu korelasyon analizi kullanılarak incelenmiştir. Yapılan incelemede bağımsız değişkenler arasındaki ilişkide çoklu bağlantı sorununa neden olacak derece güçlü bir ilişkinin bulunmadığı ve regresyon modelinin kurulması için gerekli olan bu varsayımın sağlandığı görülmüştür. Bir sonraki aşamada bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine ait dağılım incelenmiş değişken dağılımının sağa çarpık dağılım özelliği gösterdiği görülmüştür. Çalışmada kişi başı sağlık harcaması değişkenini tahmin etmeye yönelik olarak bir çoklu regresyon modelinin kurulması hedeflendiğinden model performansını yükseltmek amacıyla bağımlı değişkene logaritmik ve Box-Cox dönüşümleri uygulanmıştır. Bir sonraki aşamada kişi başı sağlık harcaması değişkenini tahmin etmek amacıyla kurulan ve eşitlik (5) ve (6) da görülen çoklu regresyon modellerine ait performanslar Çoklu Doğrusal Regresyon, Regresyon Ağacı, 10 ağaç türetilerek elde edilen Random Forest Regresyon ve Destek Vektör Regresyonu kullanılarak incelenmiştir. Bu çalışmada kurulan regresyon modelinde logaritmik ve Box-Cox dönüşümleri uygulanarak elde edilen kişi başı sağlık harcaması değişkeninin bağımlı değişken olarak yer aldığı iki farklı regresyon modeli oluşturulmuştur. Bu modellerde x 1, x 2, x 3 ve x 4 değişkenleri

13 Comparison of Classical Regression Methods with Data Mining Regression Methods 197 sırasıyla doğuşta beklenen yaşam süresi, 65 yaş üzeri nüfus, toplam nüfus, gelir grubu ve coğrafi bölge değişkenlerini temsil etmektedir. y log = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 (5) y Box Cox = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 (6) Farklı regresyon modellerine ait performansların karşılaştırılmasında performans ölçüsü olarak RMSE, MAE ve R 2 kullanılmıştır. 3 ile 65 arasında değişmek üzere farklı k parametreleri kullanılarak kaydedilen performans sonuçları arasındaki farklılıklar grafiksel olarak gösterilmiş olup, logaritmik ve Box-Cox dönüşümlerinin uygulanması durumunda farklı regresyon modellerine ait ortalamalar arasındaki farklılıklar iki ortalama arasındaki farkın önemlilik testi ile incelenmiştir. 3. BULGULAR 3.1 TANIMLAYICI BİLGİLER 2013 yılı itibariyle Dünya Bankası na üye olan 214 ülke için sağlık harcamalarının tahminine yönelik olarak oluşturulan regresyon modelinde kullanılan bağımlı ve bağımsız değişkenlere ait tanımlayıcı bilgiler Tablo 2 de görülebilmektedir. Buna göre, sağlık harcamalarının tahminine yönelik olarak kurulan regresyon modelinde bağımlı değişken olarak kullanılan kişi başı sağlık harcaması ortalaması 1021,23 (±1769,73) dir. Bağımsız değişkenlere ait tanımlayıcı istatistikler incelendiğinde ise doğuşta beklenen yaşam süresi ortalaması 71,25 (±8,23), 65 yaş üzeri nüfus yüzdesi ortalama 7,86 (±5,36), ülke genelinde toplam nüfus ortalaması ise ,63 (± ,41) dir.

14 198 Songül ÇINAROĞLU Tablo 2 Sayısal Değişkenlere Ait Tanımlayıcı Bilgiler Türü Değişken N Min. Mak. Ort. Ss. Bağımlı Değişken Bağımsız Değişkenler Kişi Başı Sağlık Harcaması , ,73 Doğuşta beklenen yaşam süresi ,25 8,23 65 yaş üzeri nüfus ,86 5,36 Toplam nüfus , ,41 Sağlık harcamalarının tahmininde kullanılan bağımsız değişkenler içerisinde kategorik formda bulunan değişkenlerden gelir grubu ile coğrafi bölge değişkenlerine ait tanımlayıcı bilgiler Tablo 3 de sunulmuştur. Dünya Bankası ülkeleri gelir gruplarına göre sınıflandırırken düşük gelir (DG), orta gelir (OG) ve yüksek gelir (YG) olmak üzere üç gelir grubu belirlemiş, orta gelir grubunda yer alan ülkeleri de kendi içerisinde düşük orta gelir (DOG) ve yüksek orta gelir (YOG) olmak üzere iki gruba ayırmıştır. Bu sınıflamada 1.045$ ve daha az gelire sahip olan ülkeler düşük gelir grubunda, 1.046$ DOG<4.125$ aralığında bulunan ülkeler düşük orta gelir grubunda, 4.125$ YOG<12.746$ aralığında bulunan ülkeler yüksek orta gelir grubunda, $ ve üzerinde gelire sahip olan ülkeler ise yüksek gelir grubunda ülkeler olarak isimlendirilmiştir. Bu çalışmada ise toplam 214 ülke içerisinden düşük gelir grubunda 31(+14,5), düşük orta gelir grubunda 51 (%23,8), yüksek orta gelir grubunda 53 (%24,8) ve yüksek gelir grubunda bulunan 79 (%36,9) ülke olduğu tespit edilmiştir. Buna göre çalışma kapsamında incelenen ülkelerin en fazla yüksek gelir grubunda yer alan ülkelerden oluştukları söylenebilmektedir. Bu çalışmada kullanılan ve kategorik formda bulunan bir diğer değişken olan coğrafi bölge değişkeni incelendiğinde ise Doğu Asya ve Pasifik te konumlanmış 36 (16,8), Avrupa ve Merkezi Asya da 57 (%26,6), Latin Amerika ve Karayipler de 41 (%19,2), Orta ve Kuzey Afrika da 21 (%9,8), Kuzey Amerika da 3 (%1,4), Güney Asya da 8 (%3,7) ve Sahra Altı Afrika da yer alan 48 (%22,4) ülke bulunduğu görülmektedir. Buna göre Dünya Bankası na üye olan ülkelerin daha çok Avrupa ve Merkezi Asya da konumlandıkları söylenebilmektedir. Kategorik değişkenlere ait tanımlayıcı bilgiler genel olarak

15 Comparison of Classical Regression Methods with Data Mining Regression Methods 199 değerlendirildiğinde ise çalışma kapsamındaki ülkelerin daha çok gelir seviyesi yüksek olan Avrupa ve Merkezi Asya ülkelerini temsil ettikleri görülmektedir. Tablo 3 Kategorik Değişkenler Ait Tanımlayıcı Bilgiler Değişken Gelir Grubu Sıklık % Düşük Gelir (DG) 31 14,5 (DG 1.045$) Düşük Orta Gelir (DOG) 51 23,8 (1.046$ DOG<4.125$) Yüksek Orta Gelir (YOG) 53 24,8 (4.125$ YOG<12.746$) Yüksek Gelir (YG) 79 36,9 (YG $) Toplam Coğrafi Bölge Sıklık % Doğu Asya ve Pasifik 36 16,8 Avrupa ve Merkezi Asya 57 26,6 Latin Amerika ve Karayipler 41 19,2 Orta Doğu ve Kuzey Afrika 21 9,8 Kuzey Amerika 3 1,4 Güney Asya 8 3,7 Sahra Altı Afrika 48 22,4 Toplam BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ İLİŞKİLERİN DOĞRUSAL BAĞIMLILIK BAKIMINDAN İNCELENMESİ Çoklu doğrusal regresyon modellerinde bağımsız değişkenlerin yüksek derecede ilişkili olmaması istenmektedir. Bunun nedeni regresyon modellerinde bağımsız değişkenler arasındaki ilişkinin çok belirgin olması durumunda bir bağımsız değişkenin diğer bağımsız değişken ya da değişkenlerin bir doğrusal fonksiyonu olarak yazılabilmesidir. Böylesi bir durumda bağımsız değişkenler arasında bir doğrusal bağımlılıktan söz etmek mümkün olacaktır ve regresyon katsayıları bulunamayacaktır 14. Bu nedenle regresyon modeli kurulmadan önce değişkenler arasındaki ilişkilerin incelenmesi önerilmektedir. Korelasyon katsayıları değişkenler arasındaki ilişkinin derecesi ve

16 200 Songül ÇINAROĞLU kuvveti hakkında bilgi veren ölçülerdir. Korelasyon katsayıları içerisinde Spearman korelasyon katsayısı (r s ) değişkenlerden en az bir ya da birkaçının normal dağılmadığı, değişkenler arasındaki ilişkinin doğrusallıktan hafif bir şekilde saptığı durumlarda kullanılan bir korelasyon katsayısı türüdür (Manning 2006). Bu çalışmada ise bağımsız değişkenler içerisinde çarpık dağılıma sahip olan değişkenler bulunduğundan dolayı değişkenler arasındaki ilişkiler Spearman korelasyon katsayısı kullanılarak incelenmiştir. Bağımsız değişkenler arasındaki ilişkilere ait korelasyonlar Grafik 1 de sunulmuş olan korelogram grafiğinde görülebilmektedir. Buna göre bağımsız değişkenler arasında doğrusal bağımlılığa işaret edecek derecede yüksek korelasyonların olmadığı ( r s <0.70) görülmektedir. Bu sonuç seçilen bu bağımsız değişkenlerin regresyon modeline katılmasında bir engel olmadığını ortaya koymaktadır. Bir sonraki aşamada regresyon modeli performansının iyileştirilmesi amacıyla bu çalışmada bağımlı değişken olarak kullanılacak olan sağlık harcaması değişkenine ait dağılım normalleştirilmiştir. Grafik 1 Bağımsız Değişkenler Arasındaki İlişkileri Gösteren Korelogram Grafiği

17 Comparison of Classical Regression Methods with Data Mining Regression Methods SAĞLIK HARCAMASI DEĞİŞKENİNE AİT DAĞILIMIN NORMALLEŞTİRİLMESİ Bu çalışmada bağımlı değişken olarak yer alan kişi başı sağlık harcaması değişkeni ile ilgili olarak literatürde bu değişkene ait dağılımın sağa çarpıklık özelliği gösterdiği belirtilmektedir. Doğrusallıktan ayrılmayı beraberinde getirerek regresyon modelinin performansını olumsuz olarak etkileyen bu durum ile başa çıkabilmek için logaritmik dönüşüm, Box-Cox dönüşümü, Gamma-log dönüşüm gibi farklı dönüşüm yaklaşımlarının uygulanması tavsiye edilmektedir (Basu ve Manning 2009). Bu yaklaşımlar içerisinde logaritmik dönüşüm en fazla kullanılan yaklaşım olmakla birlikte sağlık harcamalarının modellenmesi konusunda öncü çalışmalar yapan Manning ve Mullahy (2001) ve Basu ve Manning (2009) tarafından önerildiği üzere Box-Cox dönüşümü kullanılarak regresyon model performansının iyileştirilmesi sağlanabilmektedir. Logaritmik dönüşüm uygulanarak, doğrusallaştırılamayan modellerin doğrusallaştırılması mümkün olabilmektedir. Bu sayede model performansı yükseltilmektedir. Sağlık harcamaları gibi pozitif çarpık dağılımları simetriye yakın bir dağılım haline getirmek için logaritmik dönüşümden sıklıkla yararlanılmaktadır (Alpar 2011; Manning ve Mullahy 2001). Bir diğer alternatif ise logaritmik dönüşümün özel bir türü olan Box-Cox dönüşümüdür. Değişken dağılımının normal dağılıma uygun olmaması durumunda sıklıkla kullanılan bu dönüşüm, varyansın bağımlı değişkenin artan değerlerine paralel olarak arttığı durumlarda kullanılmakla birlikte pozitif değerli değişkenlere uygulanabilmektedir (Albayrak 2008). Box-Cox dönüşümü (7) nolu eşitlikte görüldüğü gibi tanımlanmaktadır (Basu ve Manning 2009). (y λ 1) = xβ + ε eğer λ 0 f(y) = { λ log(y) = xβ + ε eğer λ = 0 (7)

18 202 Songül ÇINAROĞLU Sağlık harcamalarının konu edinildiği regresyon modellerinde Box-Cox dönüşümünün uygulanmasının sağladığı avantajlara değinen Manning (2006) tarafından belirtildiği üzere Box-Cox dönüşümü özellikle λ<1 olduğunda, sağlık harcaması dağılımın sağa çarpıklık özelliğinin üstesinden gelebilmektedir. Çok küçük λ değerlerine sahip olunduğunda ise sağa çarpık dağılımın sola çarpık hale gelmesi mümkün olabilmektedir. Sağlık harcamalarının analizinde Box-Cox yaklaşımının kullanılması ile ilgili tek sorun ise parasal tutarlar ile ifade edilen sağlık harcamalarının dönüşüm sonrasında logaritmik formda yorumlanmasında karşılaşılan güçlüktür. Bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine ait dağılımın normal dağılıma uygunluğu gözlem sayısının parametrik testlerin uygulanmasına imkan vermemesinden (n 30) dolayı Kolmogorov-Smirnov (K-S) testi ile incelenmiştir. Elde edilen test istatistiği 0,29 olup bu istatistiğe ilişkin p değerinin ise 0,01 den küçük olduğu tespit edilmiştir. Bu sonuç dağılımın normal dağılıma uygun olmadığını ortaya koymuştur. Bu nedenle kişi başı sağlık harcaması değişkenine iki farklı dönüşüm uygulanmış, öncelikle bu değişkenin doğal logaritması alınmış daha sonra ise Box-Cox dönüşümü uygulanarak değişken dağılımı incelenmiştir. Yapılan inceleme sonucunda logaritmik dönüşüm ile Box-Cox dönüşümlerinin değişken dağılımını normal dağılıma yaklaştırdığı gözlemlenmiştir. Bu nedenle kurulacak regresyon modellerinden daha yüksek performans elde edebilmek amacıyla bağımlı değişkene logaritmik ve Box-Cox dönüşümü uygulanmış formu kullanılarak elde edilen model performanslarının karşılaştırmalı olarak incelenmesine karar verilmiştir. 6. KİŞİ BAŞI SAĞLIK HARCAMALARININ TAHMİNİNDE DESTEK VEKTÖR REGRESYONU İLE DİĞER REGRESYON MODELLERİ KULLANILARAK ELDE EDİLEN PERFORMANS SONUÇLARININ KARŞILAŞTIRILMASI Tablo 4 ve 5 de bu çalışmada bağımlı değişken olarak kullanılan kişi başı sağlık harcaması değişkenine logaritmik dönüşüm ve Box-Cox dönüşümleri uygulandıktan

19 Comparison of Classical Regression Methods with Data Mining Regression Methods 203 sonra farklı regresyon yöntemlerine göre elde edilen performans sonuçları R 2, RMSE ve MEA dikkate alınarak değerlendirilmiştir. Bu değerlendirmelerde aynı zamanda performans sonuçlarının optimizasyonu amacıyla 5 ile 65 arasında değişen 13 farklı k parametresi belirlenerek k parça çapraz geçerlilik uygulanmıştır. Logaritmik ve Box-Cox dönüşümlerinin uygulanması ve farklı performans ölçülerinin belirlenmesi durumunda elde edilen performans sonuçları genel olarak değerlendirildiğinde her iki dönüşüm yöntemi uygulandığında da Destek Vektör Regresyonu kullanılarak elde edilen performans sonuçlarının diğer yöntemlere göre daha iyi olduğu dikkat çekmektedir. Bu amaçla çizilen Grafik 2 incelendiğinde ve çoklu açıklayıcılık katsayısının 1 e yaklaşması durumunda bunun daha yüksek bir model performansı elde edilmesi anlamına geldiği göz önünde bulundurulduğunda (Chai ve Deraxler 2014) Destek Vektör Regresyonu kullanılarak elde edilen performans sonuçlarının farklı k parametre değerleri uygulandığında diğer regresyon yöntemlerine göre daha yüksek performans sergilediği (R 2 >0.70) görülmektedir. Farklı dönüşüm yaklaşımları kullanılarak elde edilen bu sonuçlar genel olarak incelendiğinde Box-Cox dönüşümü uygulandıktan sonra elde edilen sonuçların, logaritmik dönüşüm sonrası elde edilen performans sonuçlarından daha yüksek çoklu açıklayıcılık katsayısı değerlerine işaret ettiği görülmektedir. Grafik 3 de bağımlı değişkene logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemleri kullanılarak ve farklı k parametreleri belirlenerek elde edilen RMSE değerlerine yer verilmiştir. Daha düşük RMSE değerlerinin daha yüksek performansa işaret ettiği göz önünde bulundurulduğunda her iki dönüşüm yöntemi kullanıldığında da Destek Vektör Makinası regresyona ait sonuçların düşük değerlere sahip olduğu ve daha iyi performans sergilediği görülmektedir.

20

21 Ekonomik Yaklaşım ISSN print 2016 Ekonomik Yaklaşım Derneği / Association - Ankara Her hakkı saklıdır All rights reserved

22

23 RMSE RMSE Çoklu Açıklayıcılık Katsayısı Çoklu Açıklayıcılık Katsayısı Grafik 2 Bağımlı Değişkene Log ve Box-Cox Dönüşümlerinin Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen R 2 de Değişim Log_KBSH Box-Cox_KBSH k parça çapraz geçerlilik k parça çapraz geçerlilik Destek Vektör Regresyonu Random Forest Regresyon (Ağaç Sayısı 10) Regresyon Ağacı Çoklu Doğrusal Regresyon Destek Vektör Regresyonu Random Forest Regresyon (Ağaç Sayısı 10) Regresyon Ağacı Çoklu Doğrusal Regresyon Grafik 3 Bağımlı Değişkene Log ve Box-Cox Dönüşüm Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen RMSE Değerlerinde Değişim Log_KBSH Box-Cox_KBSH k parça çapraz geçerlilik k parça çapraz geçerlilik Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Ekonomik Yaklaşım ISSN print 2016 Ekonomik Yaklaşım Derneği / Association - Ankara Her hakkı saklıdır All rights reserved

24 MEA MEA 206 Songül ÇINAROĞLU Grafik 4 de regresyonda model performansının belirlenmesinde yararlanılan bir diğer ölçü olan MEA açısından logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemleri kullanılarak elde edilmiş olan MEA değerlerine yer verilmiştir. 5 ile 65 arasında değişen sayılarda k parça çapraz geçerliliğin uygulandığı bu yönteme ait performans sonuçları genel olarak değerlendirildiğinde ve daha düşük MEA değerlerinin daha iyi performansa işaret ettiği göz önünde bulundurulduğunda, Destek Vektör Regresyonuna ait performans sonuçlarının en iyi olduğu söylenebilmektedir. Grafik 4 Bağımlı Değişkene Log ve Box-Cox Dönüşüm Uygulanması Sonrasında Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen MEA Değerlerinde Değişim Log_SH Box-Cox_SH k parça çapraz geçerlilik k parça çapraz geçerlilik Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon_10 Ağaç Destek Vektör Regresyonu Bu sonuçlar Destek Vektör Makinası Regresyonun kişi başı sağlık harcamasının tahmine yönelik olarak oluşturulacak regresyon modellerinin çözümünde kullanılabilecek etkin bir regresyon yöntemi olduğunu ortaya koymaktadır. Diğer taraftan k parça çapraz geçerlilikte k parametresinin yükselmesi durumunda bunun

25 Comparison of Classical Regression Methods with Data Mining Regression Methods 207 model performansının iyileşmesi anlamına geldiği düşünüldüğünde, daha yüksek k parametreleri belirlendiğinde veri setinin daha fazla parçaya ayrıldığı, her seferinde daha küçük bir parçanın dışarıda bırakılması yolu ile model kurulması nedeniyle giderek daha yüksek bir performans sonucu elde edildiği söylenebilmektedir. Bir sonraki aşamada farklı regresyon yöntemleri kullanılarak elde edilen regresyon modeli performans sonuçları arasında gözlemlenen farklılığın istatistiksel olarak anlamlılığının test edilmesi amacıyla uygulanan k parça çapraz geçerlilik sayısı 3 den 65 e kadar 2 şer aralıklarla değiştirilmiş ve performans sonuçları arasındaki farklılıklar kaydedilmiştir. Buna göre toplamda 32 farklı k parametresine göre belirlenmiş olan performans ölçülerinin karşılaştırılması için gerekli parametrik test varsayımlarının sağlandığı görüldüğünden dolayı Logaritmik ve Box-Cox dönüşümlerinin uygulanması sonrasında farklı regresyon yöntemlerine göre elde edilen performans sonuçları arasındaki farklılıklar bağımsız gruplarda iki ortalama arasındaki farkın önemlilik testi ile incelenmiştir. Bağımsız gruplar için t testinin uygulanmasından önce 3 ile 65 arasında değişen, 32 farklı k parametresi belirlenerek elde edilen performans sonuçlarına ait tanımlayıcı istatistikler Tablo 6 da sunulmuştur. Regresyon yöntemlerinin performans sonuçları bakımından karşılaştırılmasına ait yorumlamalarda, RMSE ve MAE değerlerinin sıfıra yaklaşması durumunda daha iyi bir model performansı elde edildiği, R 2 değeri için ise 0.75 ve üzerindeki değerlerin daha yüksek performans anlamına geldiği göz önünde bulundurulmuştur. Buna göre Çoklu Doğrusal Regresyon, Regresyon Ağacı, 10 ağaç türetilerek elde edilen Random Forest regresyon yöntemi ile Destek Vektör Makinası Regresyon yöntemleri kullanılarak elde edilen performans sonuçları incelendiğinde, RMSE ve MAE değerleri için logaritmik dönüşüm uygulanması sonrasında elde edilen performans sonucu ortalamalarının Box-Cox dönüşümü uygulanması sonrasında elde edilen performans sonuçlarına göre daha düşük değerlere işaret ettiği ve daha iyi olduğu gözlemlenmektedir. Diğer taraftan farklı regresyon yöntemlerine göre elde edilen R 2

26 208 Songül ÇINAROĞLU değerlerinin benzer olduğu görülmekle birlikte en yüksek ortalama R 2 değerlerinin Box-Cox dönüşümünün uygulandığı Destek Vektör Regresyonu yöntemine ait olduğu gözlemlenmektedir. Tablo 6 32 Farklı k Parametreleri Belirlenerek ve Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen Performans Sonuçlarına Ait Tanımlayıcı Bilgiler Regresyon Yöntemi Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon (10 Ağaç) Dönüşüm Yöntemi Logaritmik Dönüşüm Box-Cox Dönüşümü Logaritmik Dönüşüm Box-Cox Dönüşümü Logaritmik Dönüşüm Box-Cox Dönüşümü Destek Logaritmik Vektör Dönüşüm Regresyonu Box-Cox Dönüşümü Performans Ölçüsü n Min. Mak. Ort. Ss. RMSE 32 0,4153 0,4349 0,4172 0,0043 MEA 32 0,3287 0,3427 0,3304 0,0031 R ,5596 0,5985 0,5947 0,0085 RMSE 32 0,8841 0,9234 0,8881 0,0087 MEA 32 0,6989 0,7264 0,7024 0,0061 R ,5643 0,6006 0,5969 0,0080 RMSE 32 0,3762 0,4207 0,3932 0,0084 MEA 32 0,2825 0,3423 0,3085 0,0096 R ,5878 0,6705 0,6398 0,0154 RMSE 32 0,8118 0,8991 0,8426 0,0178 MEA 32 0,6309 0,7318 0,6616 0,0177 R ,5869 0,6633 0,6370 0,0155 RMSE 32 0,3504 0,3881 0,3675 0,0096 MEA 32 0,2665 0,2989 0,2822 0,0076 R ,6338 0,7141 0,6834 0,0187 RMSE 32 0,7445 0,8396 0,7810 0,0211 MEA 32 0,5615 0,6433 0,5992 0,0180 R ,6130 0,7168 0,6857 0,0215 RMSE 32 0,3360 0,3529 0,3469 0,0027 MEA 32 0,2644 0,2747 0,2681 0,0021 R ,7100 0,7372 0,7199 0,0044 RMSE 32 0,6997 0,7293 0,7215 0,0049 MEA 32 0,5263 0,5673 0,5586 0,0068 R ,7282 0,7498 0,7340 0,0036 Tablo 7 de kişi başı sağlık harcaması değişkenine logaritmik ve Box-Cox dönüşümü uygulandığında farklı regresyon yöntemleri kullanılarak elde edilen performans ölçülerine ait ortalamalar arasındaki farklılıkların iki ortalama arasındaki farkın önemlilik test ile incelenmesin yer verilmiştir. Buna göre çoklu doğrusal regresyon kullanıldığında logaritmik dönüşüm ve Box-Cox dönüşümlerinin uygulanması durumuna göre elde edilen performans ölçüleri içerisinde RMSE (t=-274,38, p<0.01) ve MAE (t=-309,27, p<0.01) ortalamaları arasındaki farkın istatistiksel olarak anlamlı

27 Comparison of Classical Regression Methods with Data Mining Regression Methods 209 olduğu görülmekte, benzer şekilde Regresyon Ağacı uygulandığında RMSE (t=- 129,03, p<0.01) ve MAE (t=-99,03, p<0.01) ortalamaları arasında farkın istatistiksel olarak anlamlı olduğu görülmektedir. 10 ağaç türetilerek elde edilen Random Forest regresyon performans sonuçları incelendiğinde ise RMSE (t=-100,88, p<0.01), MAE (t=-91,92, p<0.01) ortalamaları arasındaki farkların istatistiksel olarak anlamlı olduğu söylenebilmektedir. Tablo 7 32 Farklı k Parametreleri Belirlenerek ve Farklı Regresyon Yöntemleri Kullanılarak Elde Edilen Performans Sonuçlarına İlişkin Ortalamaların Karşılaştırılması Regresyon Yöntemi Çoklu Doğrusal Regresyon Regresyon Ağacı Random Forest Regresyon (10 Ağaç) Destek Vektör Regresyonu Performans Ölçüsü RMSE Dönüşüm Türü Ort. Ss. t p Logaritmik Dönüşüm 0,4172 0,0043 Box-Cox Dönüşümü 0,8881 0,0087 Logaritmik Dönüşüm 0,3304 0,0030 MEA Box-Cox Dönüşümü 0,7024 0,0060 Logaritmik Dönüşüm 0,5947 0,0085 R 2 Box-Cox Dönüşümü 0,5969 0,0080 RMSE Logaritmik Dönüşüm 0,3932 0,0083 Box-Cox Dönüşümü 0,8426 0,0178 Logaritmik Dönüşüm 0,3085 0,0095 MEA Box-Cox Dönüşümü 0,6616 0,0177 R 2 Logaritmik Dönüşüm 0,6398 0,0154 Box-Cox Dönüşümü 0,6370 0,0154 RMSE Logaritmik Dönüşüm 0,3675 0,0096 Box-Cox Dönüşümü 0,7810 0,0210 Logaritmik Dönüşüm 0,2822 0,0075 MEA Box-Cox Dönüşümü 0,5992 0,0179 R 2 Logaritmik Dönüşüm 0,6834 0,0187 Box-Cox Dönüşümü 0,6857 0,0215 RMSE Logaritmik Dönüşüm 0,3469 0,0027 Box-Cox Dönüşümü 0,7215 0,0049 MEA Logaritmik Dönüşüm 0,2681 0,0021 Box-Cox Dönüşümü 0,5586 0,0067 R 2 Logaritmik Dönüşüm 0,7199 0,0043 Box-Cox Dönüşümü 0,7340 0, ,38 < ,27 <0.01-1,09 0,27-129,03 < ,03 <0.01 0,71 0,47-100,88 < ,92 <0.01-0,45 0,65-378,27 < ,06 < ,19 <0.01 Logaritmik ve Box-Cox dönüşümleri uygulandığında elde edilen sonuçlar bir diğer regresyon yöntemi olan Destek Vektör Regresyonu bakımından incelendiğinde ise RMSE (t=-378,27, p<0.01), MAE (t=-232,06, p<0.01) ve R 2 (t=-14,19, p<0.01) olmak

28 210 Songül ÇINAROĞLU üzere tüm performans ölçülerine ait ortalamalar arasındaki farkın istatistiksel olarak anlamlı olduğu söylenebilmektedir. Farklı dönüşüm yaklaşımlarının uygulanmasına göre farklı regresyon yöntemleri kullanılarak elde edilen performans sonuçları arasındaki farklılıklar birlikte değerlendirildiğinde; diğer regresyon yöntemleri içerisinde Destek Vektör Regresyonuna ait tüm performans sonucuna ortalamalarının logaritmik ve Box-Cox dönüşümlerinin uygulanması durumuna göre istatistiksel olarak anlamlı farklılık gösterdiği söylenebilmektedir. 7. TARTIŞMA Literatürde sağlık harcamalarını konu edinen modelleme çalışmalarında model performansını olumsuz etkileyen temel konulardan birisi sağlık harcaması dağılımının sağa çarpık dağılım özelliği göstermesidir. Dağılımın normal dağılımdan uzaklaşmasına neden olan bu durum model performansını olumsuz etkilemekte, hedeflenen yüksek tahmin sonuçlarına erişilmesini güçleştirmektedir. Makro seviyelerde hanehalkı düzeyinde sağlık harcamasından, mikro seviyelerde herhangi bir hastalık ile ilgili maliyetlere kadar çeşitli türlerdeki sağlık harcamaları için geçerli olan bu sorunun üstesinden gelebilmek amacıyla sağlık ekonomistleri bazı dönüşüm yaklaşımlarının uygulanmasını tavsiye etmektedirler 41. Bu dönüşüm yaklaşımları içerisinde en fazla kullanılan dönüşümün logaritmik dönüşüm yaklaşımı olduğu bilinmekte olup, Manning (2006) tarafından önerilen alternatif bir yaklaşım ise Box- Cox dönüşümü yaklaşımıdır. Manning (2006) e göre Box-Cox dönüşümü sağlık harcaması dağılımının sağa çarpıklık özelliği ile başa çıkabilmekte ve bu sayede regresyon modellerinden daha yüksek bir performans elde edilmesi sağlanabilmektedir. Literatürde sağlık alanında veri madenciliği tekniklerini kullanan çalışmalardan daha çok hastalıkların teşhis ve tedavi grubu şeklinde sınıflandırılmasında yararlanıldığı görülmektedir. Bu çalışmalarda çoğunlukla klinik amaçlı veri ve bilgilerin kullanıldığı bilinmekte olup, sağlık harcamalarının tahmin edilmesine yönelik bir çalışmaya rastlanmamıştır. Klasik regresyon yöntemlerine göre bağımlı değişkenin tahmin

29 Comparison of Classical Regression Methods with Data Mining Regression Methods 211 edilmesinde önemli bir alternatif oluşturan veri madenciliği yöntemleri sayesinde daha güçlü tahminler yapılması, model performansının optimizasyonuna imkan veren yöntemlerin uygulanması mümkün olabilmektedir. Bu nedenle bu çalışmada Dünya Bankası na üye ülkeler için kişi başı sağlık harcamalarının tahmininde, gelir grubu, coğrafi bölge, 65 yaş ve üzeri nüfus, doğuşta beklenen yaşam süresi ve toplam nüfus değişkenleri bağımsız değişkenleri olarak kullanılmak üzere oluşturulan bir regresyon modelinin performansını incelenmesi amaçlanmıştır. Çoklu doğrusal regresyon, regresyon ağacı, 10 ağaç türetilerek elde edilen Random Forest regresyon ve Destek Vektör Makinası regresyon performansları karşılaştırılmıştır. Karşılaştırmalar 3 ile 65 arasında değişmek üzere farklı sayılarda k parametresi belirlenerek elde edilen sonuçlar üzerinden yapılmıştır. Performans ölçüsü olarak RMSE, MAE ve R 2 kullanılmıştır. Yapılan karşılaştırmalarda tüm regresyon yöntemleri içerisinde Destek Vektör Regresyonuna ait sonuçların en iyi performans sergilediği görülmüştür. Çalışmada ayrıca bağımlı değişken olan kişi başı sağlık harcaması değişkenine logaritmik dönüşüm uygulanması ile Box-Cox dönüşümü uygulanması sonrasında elde edilen regresyon performans sonuçları da dört farklı regresyon yöntemine göre karşılaştırmalı olarak incelenmiştir. Karşılaştırma sonuçları logaritmik dönüşüm ve Box-Cox dönüşümü uygulandığında, dört farklı regresyon yönteminden elde edilen RMSE ve MEA değerlerinin ortalamaları arasında istatistiksel olarak anlamlı bir farklılık bulunduğunu, Destek Vektör Regresyonu dışında diğer tüm regresyon yöntemleri için farklı dönüşüm yaklaşımlarının uygulanmasının R 2 değeri ortalamalarında istatistiksel olarak anlamlı bir farklılık yaratmadığı gözlemlenmiştir. Bu sonuçlara göre yalnızca Destek vektör regresyonu için logaritmik ya da Box-Cox dönüşümünün uygulanması durumuna göre, 32 farklı k parametresinin uygulanması sonucunda elde edilen RMSE, MAE ve R 2 değerlerine ait ortalamalar arasındaki farkın istatistiksel olarak anlamlı olduğu dikkat çekmektedir. Buna ek olarak Box-Cox dönüşümü kullanıldığında ve destek vektör regresyonu uygulandığında diğer regresyon modellerine göre daha iyi performans sonuçlarına erişildiği söylenebilmektedir.

Korelasyon, Korelasyon Türleri ve Regresyon

Korelasyon, Korelasyon Türleri ve Regresyon Korelasyon, Korelasyon Türleri ve Regresyon İçerik Korelasyon Korelasyon Türleri Korelasyon Katsayısı Regresyon KORELASYON Korelasyon iki ya da daha fazla değişken arasındaki doğrusal ilişkiyi gösterir.

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık KORELASYON ve REGRESYON ANALİZİ Doç. Dr. İrfan KAYMAZ Tanım Bir değişkenin değerinin diğer değişkendeki veya değişkenlerdeki değişimlere bağlı olarak nasıl etkilendiğinin istatistiksel

Detaylı

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1 3. TAHMİN 3.1. En Küçük Kareler (EKK) Yöntemi 1 En Küçük Kareler (EKK) yöntemi, regresyon çözümlemesinde en yaygın olarak kullanılan, daha sonra ele alınacak bazı varsayımlar altında çok aranan istatistiki

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. Örnek Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. i. ii. X 1 2 3 4 1 2 3 4 Y 2 3 4 5 4 3 2 1 Örnek Aşağıdaki veri

Detaylı

QUANTILE REGRESYON * Quantile Regression

QUANTILE REGRESYON * Quantile Regression QUANTILE REGRESYON * Quantile Regression Fikriye KURTOĞLU İstatistik Anabilim Dalı Olcay ARSLAN İstatistik Anabilim Dalı ÖZET Bu çalışmada, Lineer Regresyon analizinde kullanılan en küçük kareler yöntemine

Detaylı

İÇİNDEKİLER 1. GİRİŞ...

İÇİNDEKİLER 1. GİRİŞ... İÇİNDEKİLER 1. GİRİŞ... 1 1.1. Regresyon Analizi... 1 1.2. Uygulama Alanları ve Veri Setleri... 2 1.3. Regresyon Analizinde Adımlar... 3 1.3.1. Problemin İfadesi... 3 1.3.2. Konu ile İlgili Potansiyel

Detaylı

İçindekiler. Ön Söz... xiii

İçindekiler. Ön Söz... xiii İçindekiler Ön Söz.................................................... xiii Bölüm 1 İstatistiğe Giriş....................................... 1 1.1 Giriş......................................................1

Detaylı

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ DÖNEM I-I. DERS KURULU Konu: Bilimsel yöntem ve istatistik Amaç: Biyoistatistiğin tıptaki önemini kavrar ve sonraki dersler için gerekli terminolojiye hakim olur.

Detaylı

Ekonometri I VARSAYIMLARI

Ekonometri I VARSAYIMLARI Ekonometri I ÇOK DEĞİŞKENLİ REGRESYON MODELİNİN VARSAYIMLARI Hüseyin Taştan Temmuz 23, 2006 İçindekiler 1 Varsayım MLR.1: Parametrelerde Doğrusallık 1 2 Varsayım MLR.2: Rassal Örnekleme 1 3 Varsayım MLR.3:

Detaylı

EME 3117 SİSTEM SIMÜLASYONU. Girdi Analizi. Özet İstatistikler ve Histogram (Minitab)(1) Örnek: Eczane İçin Servis Süreleri

EME 3117 SİSTEM SIMÜLASYONU. Girdi Analizi. Özet İstatistikler ve Histogram (Minitab)(1) Örnek: Eczane İçin Servis Süreleri EME 3117 1 2 Girdi Analizi SİSTEM SIMÜLASYONU Modellenecek sistemi (prosesi) dokümante et. Veri toplamak için bir plan geliştir. Veri topla. Verilerin grafiksel ve istatistiksel analizini yap. Girdi Analizi-I

Detaylı

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir. ÇIKARSAMALI İSTATİSTİKLER Çıkarsamalı istatistikler, örneklemden elde edilen değerler üzerinde kitleyi tanımlamak için uygulanan istatistiksel yöntemlerdir. Çıkarsamalı istatistikler; Tahmin Hipotez Testleri

Detaylı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER ÖN SÖZ... İÇİNDEKİLER ÖN SÖZ... v GİRİŞ... 1 1. İSTATİSTİK İN TARİHÇESİ... 1 2. İSTATİSTİK NEDİR?... 3 3. SAYISAL BİLGİDEN ANLAM ÇIKARILMASI... 4 4. BELİRSİZLİĞİN ELE ALINMASI... 4 5. ÖRNEKLEME... 5 6. İLİŞKİLERİN

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım 2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI 2.1. Tanım Regresyon analizi, bir değişkenin başka bir veya daha fazla değişkene olan bağımlılığını inceler. Amaç, bağımlı değişkenin kitle ortalamasını, açıklayıcı

Detaylı

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması 2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması Mahmut YARDIMCIOĞLU Özet Genel anlamda krizler ekonominin olağan bir parçası haline gelmiştir. Sıklıkla görülen bu krizlerin istatistiksel

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı KORELASYON VE REGRESYON ANALİZİ Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı İki ya da daha çok değişken arasında ilişki olup olmadığını, ilişki varsa yönünü ve gücünü inceleyen korelasyon

Detaylı

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005 KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005 1 Karşılaştırma istatistiği Temel kavramlar: Örneklem ve evren:

Detaylı

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines) Destekçi Vektör Makineleri Destekçi Vektör Makineleri(Support Vector Machines) Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için önerilmiş bir makine öğrenmesi

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 ) 4. SUNUM 1 Gözlem ya da deneme sonucu elde edilmiş sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir. Sonuçların rastlantıya bağlı

Detaylı

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT Ünite 10: Regresyon Analizi Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT 10.Ünite Regresyon Analizi 2 Ünitede Ele Alınan Konular 10. Regresyon Analizi 10.1. Basit Doğrusal regresyon 10.2. Regresyon denklemi

Detaylı

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN Tanımlayıcı İstatistikler Yrd. Doç. Dr. Emre ATILGAN 1 Tanımlayıcı İstatistikler Yer Gösteren Ölçüler Yaygınlık Ölçüleri Merkezi Eğilim Ölçüleri Konum Ölçüleri 2 3 Aritmetik Ortalama Aritmetik ortalama,

Detaylı

Matris Cebiriyle Çoklu Regresyon Modeli

Matris Cebiriyle Çoklu Regresyon Modeli Matris Cebiriyle Çoklu Regresyon Modeli Hüseyin Taştan Mart 00 Klasik Regresyon Modeli k açıklayıcı değişkenden oluşan regresyon modelini her gözlem i için aşağıdaki gibi yazabiliriz: y i β + β x i + β

Detaylı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı ARAŞTIRMA MODELLİLERİNDE KULLANILACAK İSTATİSTİKLERİ BELİRLEME ÖLÇÜTLERİ Parametrik mi Parametrik Olmayan mı? Kullanılacak İstatistikleri Belirleme Ölçütleri Değişken Sayısı Tek değişkenli (X) İki değişkenli

Detaylı

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı BULGULAR Çalışma tarihleri arasında Hastanesi Kliniği nde toplam 512 olgu ile gerçekleştirilmiştir. Olguların yaşları 18 ile 28 arasında değişmekte olup ortalama 21,10±1,61 yıldır. Olguların %66,4 ü (n=340)

Detaylı

İkiden Çok Grup Karşılaştırmaları

İkiden Çok Grup Karşılaştırmaları İkiden Çok Grup Karşılaştırmaları Bir onkoloji kliniğinde göğüs kanseri tanısı almış kadınlar arasından histolojik evrelerine göre 17 şer kadın seçilerek sağkalım süreleri (ay) alınmıştır. HİSTLOJİK EVRE

Detaylı

LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ LOJİSTİK REGRESYON ANALİZİ Lojistik Regresyon Analizini daha kolay izleyebilmek için bazı terimleri tanımlayalım: 1. Değişken (incelenen özellik): Bireyden bireye farklı değerler alabilen özellik, fenomen

Detaylı

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI ÖNSÖZ İÇİNDEKİLER III Bölüm 1 İSTATİSTİK ve SAYISAL BİLGİ 11 1.1 İstatistik ve Önemi 12 1.2 İstatistikte Temel Kavramlar 14 1.3 İstatistiğin Amacı 15 1.4 Veri Türleri 15 1.5 Veri Ölçüm Düzeyleri 16 1.6

Detaylı

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi ÇOK DEĞİŞKENLİ REGRESYON ANALİZİ: TAHMİN Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge 17 Ekim 2012 Ekonometri

Detaylı

Rastgele Değişkenlerin Dağılımları. Mühendislikte İstatistik Yöntemler

Rastgele Değişkenlerin Dağılımları. Mühendislikte İstatistik Yöntemler Rastgele Değişkenlerin Dağılımları Mühendislikte İstatistik Yöntemler Ayrık Rastgele Değişkenler ve Olasılık Dağılımları Yapılan çalışmalarda elde edilen verilerin dağılışı ve dağılış fonksiyonu her seferinde

Detaylı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı REGRESYON ANALİZİ VE UYGULAMA Yrd. Doç. Dr. Hidayet Takcı htakci@cumhuriyet.edu.tr Sunum içeriği Bu sunumda; Lojistik regresyon konu anlatımı Basit doğrusal regresyon problem çözümleme Excel yardımıyla

Detaylı

BİYOİSTATİSTİK. Uygulama 6. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK. Uygulama 6. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Uygulama 6 Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr Soru 1 İlaç malzemelerinin kalitesini

Detaylı

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir. Koşullu Öngörümleme Ex - ante (tasarlanan - umulan) öngörümleme söz konusu iken açıklayıcı değişkenlerin hatasız bir şekilde bilindiği varsayımı gerçekçi olmayan bir varsayımdır. Çünkü bazı açıklayıcı

Detaylı

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU Marmara Üniversitesi U.B.F. Dergisi YIL 2005, CİLT XX, SAyı 1 YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU Yrd. Doç. Dr. Ebru ÇACLAYAN' Arş. Gör. Burak GÜRİş" Büyüme modelleri,

Detaylı

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz. PARAMETRİK TESTLER Tek Örneklem t-testi 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz. H0 (boş hipotez): 200 öğrencinin matematik dersinden aldıkları

Detaylı

SPATIAL STATISTICAL ANALYSIS OF THE EFFECTS OF URBAN FORM INDICATORS ON ROAD-TRAFFIC NOISE EXPOSURE OF A CITY IN SOUTH KOREA

SPATIAL STATISTICAL ANALYSIS OF THE EFFECTS OF URBAN FORM INDICATORS ON ROAD-TRAFFIC NOISE EXPOSURE OF A CITY IN SOUTH KOREA SPATIAL STATISTICAL ANALYSIS OF THE EFFECTS OF URBAN FORM INDICATORS ON ROAD-TRAFFIC NOISE EXPOSURE OF A CITY IN SOUTH KOREA Hunjae Ryu, In Kwon Park, Bum Seok Chun, Seo Il Chang Güney Kore de Bir Kentin

Detaylı

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın. KUKLA DEĞİŞKENLİ MODELLER Bir kukla değişkenli modeller (Varyans Analiz Modelleri) Kukla değişkenlerin diğer kantitatif değişkenlerle alındığı modeller (Kovaryans Analizi Modeller) Kukla değişkenlerin

Detaylı

ÖĞRENCİLERİNİN SINAV NOTLARI DAĞILIMININ DEĞERLENDİRİLMESİ: İNŞAAT MÜHENDİSLİĞİ ÖĞRENCİLERİ ÖRNEĞİ

ÖĞRENCİLERİNİN SINAV NOTLARI DAĞILIMININ DEĞERLENDİRİLMESİ: İNŞAAT MÜHENDİSLİĞİ ÖĞRENCİLERİ ÖRNEĞİ ÖĞRENCİLERİNİN SINAV NOTLARI DAĞILIMININ DEĞERLENDİRİLMESİ: İNŞAAT MÜHENDİSLİĞİ ÖĞRENCİLERİ ÖRNEĞİ Barış Yılmaz Celal Bayar Üniversitesi, Manisa baris.yilmaz@bayar.edu.tr Tamer Yılmaz, Celal Bayar Üniversitesi,

Detaylı

KONULAR. 14 Ekim 2012. Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

KONULAR. 14 Ekim 2012. Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi ÇOKLU REGRESYON ANALİZİNDE EK KONULAR Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge 14 Ekim 2012 Ekonometri

Detaylı

Korelasyon testleri. Pearson korelasyon testi Spearman korelasyon testi. Regresyon analizi. Basit doğrusal regresyon Çoklu doğrusal regresyon

Korelasyon testleri. Pearson korelasyon testi Spearman korelasyon testi. Regresyon analizi. Basit doğrusal regresyon Çoklu doğrusal regresyon Korelasyon testleri Pearson korelasyon testi Spearman korelasyon testi Regresyon analizi Basit doğrusal regresyon Çoklu doğrusal regresyon BBY606 Araştırma Yöntemleri Güleda Doğan Ders içeriği Korelasyon

Detaylı

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ 1 BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel sayma

Detaylı

BÖLÜM 12 STUDENT T DAĞILIMI

BÖLÜM 12 STUDENT T DAĞILIMI 1 BÖLÜM 12 STUDENT T DAĞILIMI 'Student t dağılımı' ya da kısaca 't dağılımı'; normal dağılım ve Z dağılımının da içerisinde bulunduğu 'sürekli olasılık dağılımları' ailesinde yer alan dağılımlardan bir

Detaylı

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2 Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi Cilt 5, Sayı:2, 2003 YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI Sibel SELİM 1 Efe SARIBAY

Detaylı

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr 1 Bir değişkenin değerinin,

Detaylı

Deneysel Verilerin Değerlendirilmesi. Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR. Prof. Dr. Murat ELİBOL FİNAL SINAVI

Deneysel Verilerin Değerlendirilmesi. Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR. Prof. Dr. Murat ELİBOL FİNAL SINAVI Deneysel Verilerin Değerlendirilmesi Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR Prof. Dr. Murat ELİBOL FİNAL SINAVI Ödevi Hazırlayan: Özge AKBOĞA 91100019124 (Doktora) Güz,2012 İzmir 1

Detaylı

Türkiye deki İş Kazalarının Box-Jenkins Tekniği ile İncelenmesi. Doç. Dr. Arzu ALTIN YAVUZ Ar. Gör. Barış ERGÜL Ar. Gör. Ebru GÜNDOĞAN AŞIK

Türkiye deki İş Kazalarının Box-Jenkins Tekniği ile İncelenmesi. Doç. Dr. Arzu ALTIN YAVUZ Ar. Gör. Barış ERGÜL Ar. Gör. Ebru GÜNDOĞAN AŞIK Türkiye deki İş Kazalarının Box-Jenkins Tekniği ile İncelenmesi Doç. Dr. Arzu ALTIN YAVUZ Ar. Gör. Barış ERGÜL Ar. Gör. Ebru GÜNDOĞAN AŞIK Sunu Planı Giriş Bu bölümde İş Sağlığı ve Güvenliği ile ilgili

Detaylı

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5 Ders Kodu: 0010070021 Kredi: 3 / ECTS: 5 Yrd. Doç. Dr. Serkan DOĞANALP Necmettin Erbakan Üniversitesi Harita Mühendisliği Bölümü Konya 07.01.2015 1 Giriş 2 Giriş Matematiksel istatistiğin konusu yığın

Detaylı

THOMAS TÜRKİYE PPA Güvenilirlik, Geçerlilik ve Standardizasyon Çalışmaları Özet Rapor

THOMAS TÜRKİYE PPA Güvenilirlik, Geçerlilik ve Standardizasyon Çalışmaları Özet Rapor THOMAS TÜRKİYE PPA Güvenilirlik, Geçerlilik ve Standardizasyon Çalışmaları Özet Rapor Amaç Aşamalar Örneklem Analizler PPA Güvenilirlik, Geçerlilik ve Standardizasyon Çalışmaları nın amacı, yeni örneklemler

Detaylı

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü Mühendislikte İstatistiksel Yöntemler Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü 1 Araştırma sonuçlarının açıklanmasında frekans tablosu

Detaylı

İÇİNDEKİLER. Birinci Bölüm UYGULAMA VERİLERİ

İÇİNDEKİLER. Birinci Bölüm UYGULAMA VERİLERİ İÇİNDEKİLER Birinci Bölüm UYGULAMA VERİLERİ VERİ GRUBU 1. Yüzücü ve Atlet Verileri... 1 VERİ GRUBU 2. Sutopu, Basketbol ve Voleybol Oyuncuları Verileri... 4 VERİ 3. Solunum Yolları Verisi... 7 VERİ 4.

Detaylı

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI

ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI SORU- 1 : ISTATISTIK VE OLASILIK SINAVI EKİM 2016 WEB SORULARI X ve Y birbirinden bağımsız iki rasgele değişken olmak üzere, sırasıyla aşağıdaki moment çıkaran fonksiyonlarına sahiptir: 2 2 M () t = e,

Detaylı

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla. 7.Ders Bazı Ekonometrik Modeller Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla. Kaynak: TÜĐK dönemler gayri safi yurt içi hasıla düzeyi 1987-1 8680793 1987-2 9929354 1987-3 13560135 1987-4

Detaylı

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ Umut FIRAT ufirat@yahoo.com Öz: Depremler yeryüzünde en çok yıkıma neden olan doğal afetlerdir. Bu durum, depremlerin önceden tahmin edilmesi fikrini

Detaylı

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER LAGRANGE YÖNTEMİ Bu metodu incelemek için Amaç fonksiyonu Min.z= f(x) Kısıtı g(x)=0 olan problemde değişkenler ve kısıtlar genel olarak şeklinde gösterilir. fonksiyonlarının

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Yatırım Analizi ve Portföy Yönetimi 5. Hafta

Yatırım Analizi ve Portföy Yönetimi 5. Hafta Yatırım Analizi ve Portföy Yönetimi 5. Hafta Dr. Mevlüt CAMGÖZ 1 Dr. Mevlüt Camgöz İçerik Tek Endeks / Pazar Modeli Sistematik Risk Sistematik Olmayan Risk Sermaye Varlıklarını Fiyatlandırma Modeli (SVFM)

Detaylı

Merkezi Eğilim ve Dağılım Ölçüleri

Merkezi Eğilim ve Dağılım Ölçüleri Merkezi Eğilim ve Dağılım Ölçüleri Soru Öğrencilerin derse katılım düzeylerini ölçmek amacıyla geliştirilen 16 soruluk bir test için öğrencilerin ilk 8 ve son 8 soruluk yarılardan aldıkları puanlar arasındaki

Detaylı

BÖLÜM 1: YAşAM ÇÖzÜMLEMEsİNE GİRİş... 1

BÖLÜM 1: YAşAM ÇÖzÜMLEMEsİNE GİRİş... 1 ÖN SÖZ...iii BÖLÜM 1: Yaşam Çözümlemesine Giriş... 1 1.1. Giriş... 1 1.2. Yaşam Süresi... 2 1.2.1. Yaşam süresi verilerinin çözümlenmesinde kullanılan fonksiyonlar... 3 1.2.1.1. Olasılık yoğunluk fonksiyonu...

Detaylı

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar 3+0 3 3 Ön Koşul Yok Dersin Dili Türkçe Dersin Seviyesi Lisans Dersin Türü Seçmeli Dersi Veren Öğretim Elemanı

Detaylı

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

ÜSTEL DÜZLEŞTİRME YÖNTEMİ ÜSEL DÜLEŞİRME YÖNEMİ ÜSEL DÜLEŞİRME YÖNEMİ Bu bölüme kadar anlatılan yöntemler zaman içinde değişmeyen parametre varsayımına uygun serilerin tahminlerinde kullanılmaktaydı. Bu tür seriler deterministik

Detaylı

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ 1 A. GİRİŞ Gözlemlerin belirli bir dönem için gün, hafta, ay, üç ay, altı ay, yıl gibi birbirini izleyen eşit aralıklarla yapılması ile elde edilen seriler zaman

Detaylı

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır. AED 310 İSTATİSTİK YANLILIK Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır. YANLILIK Yanlı bir araştırma tasarımı uygulandığında,

Detaylı

ANALİTİK YÖNTEMLERİN DEĞERLENDİRİLMESİ. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2004

ANALİTİK YÖNTEMLERİN DEĞERLENDİRİLMESİ. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2004 ANALİTİK YÖNTEMLERİN DEĞERLENDİRİLMESİ Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2004 1 Laboratuvarlarda yararlanılan analiz yöntemleri performans kalitelerine göre üç sınıfta toplanabilir: -Kesin yöntemler

Detaylı

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Gözlem ya da deneme sonucu elde edilmiş sonuçların, raslantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık Ders 8: Prof. Dr. İrfan KAYMAZ Tanım Tahmin (kestirim veya öngörü): Mevcut bilgi ve deneylere dayanarak olayın bütünü hakkında bir yargıya varmaktır. Bu anlamda, anakütleden çekilen

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık -II Prof. Dr. İrfan KAYMAZ İki Ortalama Farkının Güven Aralığı Anakütle Varyansı Biliniyorsa İki ortalama arasındaki farkın dağılımına ilişkin Z değişkeni: Güven aralığı ifadesinde

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

AKARSULARDA KİRLENME KONTROLÜ İÇİN BİR DİNAMİK BENZETİM YAZILIMI

AKARSULARDA KİRLENME KONTROLÜ İÇİN BİR DİNAMİK BENZETİM YAZILIMI AKARSULARDA KİRLENME KONTROLÜ İÇİN BİR DİNAMİK BENZETİM YAZILIMI *Mehmet YÜCEER, **Erdal KARADURMUŞ, *Rıdvan BERBER *Ankara Üniversitesi Mühendislik Fakültesi Kimya Mühendisliği Bölümü Tandoğan - 06100

Detaylı

CHAPTER 6 SIMPLE LINEAR REGRESSION

CHAPTER 6 SIMPLE LINEAR REGRESSION CHAPTER 6 SIMPLE LINEAR REGRESSION Bu bölümdeki amacımız değişkenler arasındaki ilişkiyi gösteren en uygun eşitliği kurmaktır. Konuya giriş için şu örnekle başlayalım; Diyelim ki Mr. Bump adındaki birisi

Detaylı

Kurumsal Şeffaflık, Firma Değeri Ve Firma Performansları İlişkisi Bist İncelemesi

Kurumsal Şeffaflık, Firma Değeri Ve Firma Performansları İlişkisi Bist İncelemesi T.C İSTANBUL ÜNİVERSİTESİ Sosyal Bilimler Enstitüsü İşletme Anabilim Dalı Finans Bilim Dalı Yüksek Lisans Tezi Özeti Kurumsal Şeffaflık, Firma Değeri Ve Firma Performansları İlişkisi Bist İncelemesi Prof.

Detaylı

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ 1 BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel

Detaylı

İLERİ ARAŞTIRMA SORU HAVUZU

İLERİ ARAŞTIRMA SORU HAVUZU 1 ) Bir ölçümde bağımlı değişkenlerdeki farklılıkların bağımsız değişkenlerdeki farklılıkları nasıl etkilediğini aşağıdakilerden hangisi ölçer? A) Bağımlı Değişken B) Bağımsız Değişken C) Boş Değişken

Detaylı

Mühendislikte İstatistik Yöntemler

Mühendislikte İstatistik Yöntemler .0.0 Mühendislikte İstatistik Yöntemler İstatistik Parametreler Tarih Qma.3.98 4..98 0.3.983 45 7..984 37.3.985 48 0.4.986 67.4.987 5 0.3.988 45.5.989 34.3.990 59.4.99 3 4 34 5 37 6 45 7 45 8 48 9 5 0

Detaylı

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

rasgele değişkeninin olasılık yoğunluk fonksiyonu, 3.6. Bazı Sürekli Dağılımlar 3.6.1 Normal Dağılım Normal dağılım hem uygulamalı hem de teorik istatistikte kullanılan oldukça önemli bir dağılımdır. Normal dağılımın istatistikte önemli bir yerinin olmasının

Detaylı

SÜREKLİ RASSAL DEĞİŞKENLER

SÜREKLİ RASSAL DEĞİŞKENLER SÜREKLİ RASSAL DEĞİŞKENLER Sürekli Rassal Değişkenler Sürekli Rassal Değişken: Değerleriölçümyadatartımla elde edilen, bir başka anlatımla sayımla elde edilemeyen, değişkene sürekli rassal değişken denir.

Detaylı

ZAMAN SERİLERİNDE REGRESYON ANALİZİ

ZAMAN SERİLERİNDE REGRESYON ANALİZİ ZAMAN SERİLERİNDE REGRESYON ANALİZİ 1 1. GİRİŞ Trent, serinin genelinde yukarıya ya da aşağıya doğru olan hareketlere denmektedir. Bu hareket bazen düz bir doğru şeklinde olmaktadır. Bu tür harekete sahip

Detaylı

Korelasyon ve Regresyon

Korelasyon ve Regresyon Korelasyon ve Regresyon Korelasyon- (lineer korelasyon) Açıklayıcı (Bağımsız) Değişken x çalışma zamanı ayakkabı numarası İki değişken arasındaki ilişkidir. Günlük sigara sayısı SAT puanı boy Yanıt (Bağımlı)

Detaylı

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Ç.Ü. Fen Bilimleri Enstitüsü Yıl:010 Cilt:-1 İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Işıl FİDANOĞLU İstatistik Anabilim Dalı Fikri

Detaylı

Test İstatistikleri AHMET SALİH ŞİMŞEK

Test İstatistikleri AHMET SALİH ŞİMŞEK Test İstatistikleri AHMET SALİH ŞİMŞEK İçindekiler Test İstatistikleri Merkezi Eğilim Tepe Değer (Mod) Ortanca (Medyan) Aritmetik Ortalama Merkezi Dağılım Dizi Genişliği (Ranj) Standart Sapma Varyans Çarpıklık

Detaylı

009 BS 400- İstatistik sonılannın cevaplanmasında gerekli olabilecek tablolar ve formüller bu kitapçığın sonunda verilmiştir. 1. şağıdakilerden hangisi doğal birimdir? l TV alıcısı Bl Trafik kazası CL

Detaylı

Kazanımlar. Z puanları yerine T istatistiğini ne. zaman kullanacağını bilmek. t istatistiği ile hipotez test etmek

Kazanımlar. Z puanları yerine T istatistiğini ne. zaman kullanacağını bilmek. t istatistiği ile hipotez test etmek T testi Kazanımlar Z puanları yerine T istatistiğini ne 1 zaman kullanacağını bilmek 2 t istatistiği ile hipotez test etmek 3 Cohen ind sini ve etki büyüklüğünü hesaplamak 1 9.1 T İstatistiği: zalternatifi

Detaylı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız. .4. Merkezi Eğilim ve Dağılım Ölçüleri Merkezi eğilim ölçüleri kitleye ilişkin bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi bir değeri gösterirler. Dağılım ölçüleri ise değişkenin

Detaylı

UYGUN HİPOTEZ TESTİNİN SEÇİMİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

UYGUN HİPOTEZ TESTİNİN SEÇİMİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı UYGUN HİPOTEZ TESTİNİN SEÇİMİ Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı ÖNEMLİLİK (Hipotez) TESTLERİ ü Önemlilik testleri, araştırma sonucunda elde edilen değerlerin ya da varılan

Detaylı

Çeşitli periyotlar için "Preston-Bennet yöntemi" ile ölüm düzeylerinin hesaplanması ve regresyon modellemesi

Çeşitli periyotlar için Preston-Bennet yöntemi ile ölüm düzeylerinin hesaplanması ve regresyon modellemesi Türkiye Hayat Tablosu Çalışmanın hazırlık aşamasında Türkiye Nüfus ve Sağlık Araştırmaları, Türkiye Ulusal Anne Ölümleri Çalışmaları, Sağlık Bakanlığı verileri, Sosyal Güvenlik Kurumu verileri, Türkiye

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

Bölüm 3. Tanımlayıcı İstatistikler

Bölüm 3. Tanımlayıcı İstatistikler Bölüm 3 Tanımlayıcı İstatistikler 1 Tanımlayıcı İstatistikler Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını

Detaylı

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi DEĞİŞEN VARYANS Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge 14 Ekim 2012 Ekonometri I: Değişen Varyans

Detaylı

BÖLÜM 13 HİPOTEZ TESTİ

BÖLÜM 13 HİPOTEZ TESTİ 1 BÖLÜM 13 HİPOTEZ TESTİ Bilimsel yöntem aşamalarıyla tanımlanmış sistematik bir bilgi üretme biçimidir. Bilimsel yöntemin aşamaları aşağıdaki gibi sıralanabilmektedir (Karasar, 2012): 1. Bir problemin

Detaylı

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ I Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ II Yayın No : 2845 Teknik Dizisi : 158 1. Baskı Şubat 2013 İSTANBUL ISBN 978-605 - 377 868-4 Copyright Bu kitabın bu basısı için Türkiye deki yayın hakları BETA

Detaylı

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI ANADOLU ÜNİVERSİTESİ Deney Tasarımı ve Regresyon Analizi Regresyonda Güven Aralıkları ve Hipotez Testleri Doç. Dr. Nihal ERGİNEL-2015 REGRESYON KATSAYILARININ GÜVEN ARALIĞI + in güven aralığı : i-) n 30

Detaylı

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir.

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir. T C S D Ü M Ü H E N D İ S L İ K F A K Ü L T E S İ - M A K İ N A M Ü H E N D İ S L İ Ğ İ B Ö L Ü M Ü MAK-307 OTM317 Müh. İstatistik İstatistiği ÖĞRENCİNİN: ADI - SOYADI ÖĞRETİMİ NOSU İMZASI 1.Ö 2.Ö A B

Detaylı

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ Dersin Adı Kodu Sınıf/Y.Y. Ders Saati (T+U+L) Kredi AKTS OLASILIK VE İSTATİSTİK FEB-222 2/ 2.YY 3+0+0 3 3 Dersin Dili Dersin Seviyesi

Detaylı

YÜZEYSULARI ÇALIŞMA GRUBU

YÜZEYSULARI ÇALIŞMA GRUBU 1/23 HEDEFLER Mühendislerimiz ve akademisyenlerimiz ile birlikte gelişmiş yöntem ve teknikleri kullanarak; su kaynaklarımızın planlama, inşaat ve işletme aşamalarındaki problemlere çözüm bulmak ve bu alanda

Detaylı

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir. BÖLÜM 1: FREKANS DAĞILIMLARI 1.1. Giriş İstatistik, rasgelelik içeren olaylar, süreçler, sistemler hakkında modeller kurmada, gözlemlere dayanarak bu modellerin geçerliliğini sınamada ve bu modellerden

Detaylı

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 İstatistik İstatistik, belirsizliğin veya eksik bilginin söz konusu olduğu durumlarda çıkarımlar yapmak ve karar vermek için sayısal verilerin

Detaylı

ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL

ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL ANADOLU ÜNİVERSİTESİ ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL İYİ UYUM TESTİ Rassal değişkenin olasılık yoğunluk fonksiyonunun ve parametresinin bilinmediği, ancak belirli

Detaylı

KRUSKAL WALLIS VARYANS ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

KRUSKAL WALLIS VARYANS ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı KRUSKAL WALLIS VARYANS ANALİZİ Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı ükruskal Wallis varyans analizi, tek yönlü varyans analizinin parametrik olmayan karşılığıdır. üveriler ölçümle

Detaylı