ABSTRACT. Master Thesis THE OBSERVED TYPE I ERROR AND POWER OF LOGISTIC REGRESSION MODEL UNDER MULTICOLLINEARITY. Yeliz KAŞKO

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "ABSTRACT. Master Thesis THE OBSERVED TYPE I ERROR AND POWER OF LOGISTIC REGRESSION MODEL UNDER MULTICOLLINEARITY. Yeliz KAŞKO"

Transkript

1 ÖZET Yüksek Lisans Tezi ÇOKLU BAĞLANTI DURUMUNDA İKİLİ (BİNARY) LOJİSTİK REGRESYON MODELİNDE GERÇEKLEŞEN I. TİP HATA VE TESTİN GÜCÜ Yeliz KAŞKO Ankara Üniversitesi Fen Bilimleri Enstitüsü Zootekni Anabilim Dalı Danışman: Doç. Dr. M. Muhip ÖZKAN Bu tez çalışmasında, iki kategorili (binary) bağımlı değişken ile aralarında çeşitli derecelerden korelasyon bulunan sürekli yapıdaki bağımsız değişkenlerin yer aldığı lojistik regresyon modelleri, I. tip hata ve testin gücü bakımından birbirleriyle karşılaştırılarak bu analiz tekniğinin çoklu bağlantıdan nasıl etkilendiği simülasyon yaklaşımı ile araştırılmıştır. Sürekli yapıdaki dört bağımsız değişkenin yer aldığı simülasyon denemesinde, bağımlı değişken 1 ile 2 olarak kodlanmış eşit sayıdaki verilerden oluşmuştur. 1 ve 2 kodlu verilere karşılık gelen sürekli değişkenler standart normal gösteren populasyondan çekilen tesadüf örnekleridir. Bağımsız değişkenler arasında sırasıyla 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 ve 0.9 korelasyon söz konusu olduğunda her bir örnek genişliğinde (10, 20, 30, 40) (yüzbin) simülasyon denemesi sonucunda lojistik regresyon modelinde ampirik olarak gerçekleşen I. tip hata olasılığı ve güç değerleri hesaplanmıştır. Güç değerlerinin hesaplanmasında 1 ve 2 olarak kodlanan grupların alınmış oldukları populasyon ortalamaları arasındaki farklar (δ) 0.5, 1.0, 1.5 ve 2 standart sapma olarak belirlenmiştir. Sonuçta, bağımsız değişkenler arasında yüksek korelasyon olarak tanımlanan çoklu bağlantı varlığının, tüm örnek genişliklerinde I. tip hata olasılığını etkilemezken, testin gücünü önemli ölçüde düşürdüğü gözlenmiştir. 2007, 48 sayfa Anahtar Kelimeler: Lojistik regresyon analizi, ikili bağımlı değişken, çoklu bağlantı, I. tip hata, testin gücü i

2 ABSTRACT Master Thesis THE OBSERVED TYPE I ERROR AND POWER OF LOGISTIC REGRESSION MODEL UNDER MULTICOLLINEARITY Yeliz KAŞKO Ankara University Graduates School of Natural and Applied Sciences Department of Animal Science Supervisor: Assoc. Prof. Dr. M. Muhip ÖZKAN In this study, the effect of multicollinearity, which is defined as high correlation, on the Type I error and test power of the binary logistic regression were studied. To do this, one dependent variable that consists of 1 and 2 and four continuous independent variables that were randomly drawn from the standardized normal distribution were taken into consideration in the constructed binary logistic regression model. To calculate the Type I error and test-power, the simulation study was performed times. The simulation study repeated for the sample sizes of 10, 20, 30 and 40 and the various degrees of collinearity, namely 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% and 90%. In the calculation of test-power, the differences (δ) between the population means from which the independent variables were taken for the 1 and 2 in the dependent variable were 0.5, 1.0, 1.5 and 2.0 standard deviation. The results of the simulation runs exhibited that the increasing degree of multi co-linearity among independent variables had no influence on Type I error for all sample sizes. However, the noticeable decreases in the test-power for all sample sizes were observed with increasing degree of multicollinearity. 2007, 48 pages Key Words: Logistic regression analysis, binary response variable, multicollinearity, type I error, power of the test i

3 1. GİRİŞ 1.1 Çalışmanın Kapsamı Regresyon analizi, bir değişken ile bir yada daha fazla değişken arasındaki ilişkilerin incelenmesinde kullanılmaktadır. Regresyon analizlerinin dikkate alınan model doğrultusunda iki temel amacı vardır; 1. Bağımlı (sonuç, cevap, yanıt) değişken üzerine hangi değişkenlerin etkili olduğunun ve etkili olanlar içerisinde hangi değişkenlerin etkisinin daha fazla olduğunun araştırılması, 2. Önemli bir ilişkinin varlığında elde edilen denklem ile bağımsız (açıklayıcı, belirleyici, risk faktörü) değişkenlere ait ölçümlerden yararlanılarak mümkün olan en yüksek isabet derecesi ile bağımlı değişkenin değerini tahmin etmektir. Yapılacak istatistik analizlerde amaç ne olursa olsun, çalışmanın özü gözlem değerlerinden (verilerden) yararlanarak değerlendirmeler yapmaktır. Bu nedenle üzerinde çalışılan değişken veya değişkenlere ait elde edilen veri grubunun uygun analiz teknikleri ile ele alınarak doğru çözümlemeler ve çıkarımlar yapılabilmesi, araştırıcının veri gruplarını iyi bir şekilde tanıyıp birbirinden ayırt edebilmesi ile mümkün olacaktır. İstatistikte değişkenler, elde edilecek gözlem değerlerinin nicel yada nitel olmasına göre sayısal değişkenler ve kategorik değişkenler olmak üzere iki başlık altında incelenebilirler. 1. Sayısal Değişkenler a) Sürekli Değişkenler b) Kesikli Değişkenler 2. Kategorik Değişkenler a) Sıralı (Ordinal) Değişkenler b) İsimsel (Nominal) Değişkenler 1

4 Sayısal değişkenlerde elde ediliş şekillerine göre, sürekli ve kesikli değişkenler olmak üzere iki alt başlık söz konusudur. Gözlem değerleri, sürekli değişkenlerde ölçmek, tartmak veya analiz etmek suretiyle, kesikli değişkenlerde ise saymak suretiyle elde edilmektedir. Ağırlık, boy, sütteki % protein miktarı, havadaki % nem oranı sürekli değişkenlere örnek olarak verilebilirken, ailedeki çocuk sayısı, ağızdaki diş sayısı ve böcekteki segment sayısı kesikli değişkenlere örnek olarak verilebilir. Kategorik değişkenler ise yapılan sınıflandırma şekline bağlı olarak sıralı (ordinal) ve isimsel (nominal) olarak adlandırılmaktadır. Sıralı değişkenlerde ölçüm düzeyleri arasında mesafeleri belirli olmayan bir sıralama vardır. Sıralama, üzerinde durulan özelliğe sahip oluş derecelerine göre küçükten büyüğe yada büyükten küçüğe doğru yapılabilmektedir. Başarı durumu (kötü, orta, iyi, çok iyi) ve bir testin zorluk derecesi (zor, kolay, çok kolay) sıralı değişkenlere örnek olarak verilebilir. İsimsel bir değişkende, ölçüm seviyeleri arasında bir sıralama yada uzaklık yakınlık gibi belirli bir mesafe yoktur. İsimsel değişken değerleri, sayısal olarak değil, ad olarak anlam taşırlar. Eğitim durumu (ilk, orta, lise, üniversite) ve medeni durum (hiç evlenmemiş, evli, ayrılmış, eşi ölmüş, ayrı yaşıyor) birer isimsel değişkendirler. İki düzeyli, yani yalnız iki değer alabilen isimsel değişkenlere de ikili (binary, dichotomous) değişkenler adı verilir. Örneğin cinsiyet erkek ve kadın olarak iki düzeyi olan bir ikili değişkendir. Aynı şekilde evet/hayır olarak iki değer alabilen bir değişken de ikili değişkenler sınıfına girmektedir. Bir bağımlı ve bir veya daha fazla bağımsız değişken arasındaki ilişkinin araştırılması için çok sık kullanılan regresyon analizi, bağımlı değişkenin iki yada ikiden daha fazla düzey (polychotomous) içeren kategorik değişken olması durumunda normallik varsayımının bozulması nedeniyle kullanılamaz. Kategorik veriler için, uygun analiz yöntemlerinin kullanılması gerekir. Bağımlı değişkenin gözlenen değerlerinin kategorik değil de sürekli olmasının gerekliliği doğrusal regresyon modellerinin uygulanabilirliğini sınırlamaktadır. Hastanın ölü-canlı, kişinin başarılı-başarısız olması gibi ilgilenilen birçok değişken kategorik yapıda olduğu için, bağımlı değişkenin kategorik olması durumuna göre diskriminant analizi, probit analizi, log-linear regresyon ve lojistik regresyon gibi farklı durumlarda kullanılan birçok yöntem geliştirilmiştir. Ancak log-linear regresyon yönteminde tüm 2

5 bağımsız değişkenlerin kategorik olması istenirken, diskriminant analizi, bunun tam tersi olarak bağımsız değişkenlerin tümünün sürekli olması şartını arar. Lojistik regresyon yöntemi ise sürekli ve kategorik değişkenlerin birlikte analiz edilmesine olanak tanıyarak büyük kolaylık sağlamaktadır ( 2006). Lojistik regresyon, bağımlı değişkeninin kategorik olarak; ikili veya çoklu kategorilerde gözlendiği durumlarda bağımsız değişkenlerle sebep-sonuç ilişkisini belirlemede yararlanılan bir yöntemdir. Bağımsız değişkenlerin değerlerine göre bağımlı değişkenin beklenen değerinin olasılığını belirleme yöntemi olan lojistik regresyon, aynı zamanda bağımsız değişkenlerin etkilerine dayanarak verilerin sınıflandırılmasında da kullanılabilmektedir. Bu tekniğin yaygın olarak kullanılmasının nedenleri arasında yorumlanmasının kolay olması ve bağımsız değişkenler üzerinde herhangi bir ön şart gerektirmemesi gösterilebilir. Lojistik regresyon modelinin bu esnekliği sağlıktan sosyal bilimlere kadar her alanda yaygın olarak kullanılmasını sağlamıştır (Çamdeviren 2000). Diğer birçok regresyon metodunda olduğu gibi, lojistik regresyon modelinin de çok fazla sayıda bağımsız değişkene sahip olması olağandır. Ancak lojistik regresyon tekniğinde de bağımsız değişken sayısı arttıkça doğrusal regresyonda olduğu gibi çoklu bağlantı (multicollinearity) problemi ortaya çıkmaktadır. Çoklu bağlantı, bağımsız değişkenler arasında yüksek korelasyon olması olarak tanımlanmaktadır. Bağımsız değişkenler arasındaki korelasyonun artması parametre tahminlerinin standart hatalarını aşırı derecede yükseltir. Dolayısıyla model bütünüyle önemli olsa dahi tek tek bağımsız değişkenler istatistik olarak önemli çıkmayabilir. Benzer şekilde, değişkenlerin katsayılarının işaretlerinde de farklılaşmaya sebep olabilir. Sonuç olarak bağımlı ve bağımsız değişkenler arasındaki ilişkilerin yorumlanmasında yanlış hükümlere varılabilir (Hosmer and Lemeshow 2000). Bu tez çalışmasında, ikili (binary) bağımlı değişken ve aralarında çeşitli derecelerden korelasyon bulunan sürekli yapıdaki bağımsız değişkenlerin yer aldığı modeller I. tip hata ve testin gücü bakımından birbirleriyle karşılaştırılarak çoklu bağlantının muhtelif durumları için lojistik regresyon modelinin I. tip hata ve testin gücü bakımından nasıl etkilendiği simülasyon çalışması ile araştırılmıştır. 3

6 1.2 Kaynak Özetleri Lojistik modelin ilk olarak kullanımı, biyolojik deneylerin analizi için Berkson (1944, 1953, 1955) tarafından önerilmiştir. Cornfield (1962), lojistik regresyondaki katsayı tahmin işlemlerinde diskriminant fonksiyonu yaklaşımını ilk kez kullanarak popüler hale getirmiştir. Lojistik modelini Cox (1970) geliştirmiş, çeşitli uygulamalarını yapmış, Halpering ve ark. (1971) ise yılında lojistik regresyonun, bağımsız değişkenlere ait normal dağılım varsayımının yerine gelmediği durumlarda diskriminant analizine alternatif olarak gösterilebileceğini savunmuşlardır. Finney de 1972 yılında lojistik regresyonu probit analizine alternatif olarak önermiştir. Tıp ve epidemiyoloji gibi birçok çalışma alanında binary yanıt değişkenini yada bir olayın ortaya çıkma olasılığını o değişkenle ilişkili olan açıklanabilir değişken setiyle tahmin edebilmek oldukça önemlidir. Örneğin kalp krizi olma olasılığı kolesterol ve kan basıncı gibi risk faktörlerinin bir setinin seviyeleri vasıtasıyla tahmin edilebilir. Lojistik regresyon modeli bu amaca çok güzel hizmet etmektedir (Prentice and Pyke 1979). Belsley ve ark. (1980), daha kompleks veri setlerinde, doğrusal regresyondakine benzer şekilde yapılacak bağlantı analizlerinin, kullanılacak kovaryetler arasındaki bağımlılıkların belirlenmesinde, yardımcı olabileceğini bildirmişlerdir. En önemlileri olarak Aranda-Ordaz (1981) ve Johnson (1985) tarafından yapılan çalışmalar gösterilebilecek, verilerin lojistik modele uyumu ile ilgili birçok çalışmalar da yapılmıştır. Albert ve Anderson (1984), lojistik regresyon modellerinde katsayıların en çok olabilirlik metoduyla tahminlerini ele almışlar ve farklı veri setleri üzerinde bu metoda ilişkin teorik temelleri açıklamışlardır. Lee (1984), basit dönüşümlü (cross-over) deneme planları için linear lojistik modeller üzerinde durmuştur. 4

7 Lesaffre (1986), Lesaffre ve Albert (1989) ise çoklu grup lojistik modellerde etkin ve aykırı gözlemlerle belirleme ölçütlerini incelemişlerdir. Lojistik regresyon modellerinin yaygın bir şekilde kullanılır hale gelmesi, katsayı tahmin yöntemlerinin geliştirilmesi ve lojistik regresyon modellerinin daha ayrıntılı incelenmesine sebep olmuştur. Bonney (1987) lojistik regresyon modelinin kullanımı ve geliştirilmesi üzerinde çalışmıştır. Robert ve ark. (1987) lojistik regresyonda standart ki-kare, olabilirlik oranı (G 2 ), pseudo en çok olabilirlik tahminleri, uyum mükemmelliği ve hipotez testleri üzerine çalışmalar yapmışlardır. Breslow ve Zhao (1988), kurulan modelde bağımlı değişkenin sadece iki seviyesi söz konusu olduğunda, durum-kontrol verileri için lojistik regresyon analiz tekniğini açıklamışlardır. Orta büyüklükte örnekler için bir simülasyon çalışması yaparak, modeldeki katsayıların tahmininde şartlı en çok olabilirlik metodu (CML) ve kısıtlandırılmış en çok olabilirlik metodununa (RML) ait elde edilen sonuçların karşılaştırmasını yapmışlardır. Sonuçta CML ve RML tahmin metotlarının yansız ve normal dağılım gösteren tahminler olmasına karşılık, CML metoduna göre yapılan tahminlerin standart hatalarının daha tutarlı çıktığını bildirmişlerdir. İki kategorili veriler, küme veya gruplar içinde toplandığı zaman, sınıflar arasında yüksek korelasyon ortaya çıkar. Bu tip veri setinin analizinde, Rosner (1984) in önerdiği model veya lojistik regresyon modeli kullanılmaktadır. Modelde, kovaryat etkilerini incelemek amaçlandığında, populasyonun küme etkisinin giderilebilmesi için klasik lojistik regresyon modelleri, bağımlı değişkene ait değerler arasındaki ilişkilerin incelenmesi amaçlandığında ise Rosner in önerdiği model daha iyi tahminler vermektedir (Neuhaus ve Jewell 1990). Duffy (1990) lojistik regresyonda hata terimlerinin dağılışı ve parametre değerlerinin gerçek değerlere yaklaşımını incelemiştir. Başarır (1990), klinik verilerde çok değişkenli lojistik regresyon analizi ve ayrımsama sorunu üzerinde çalışmıştır. Hsu ve Leonard (1995) lojistik regresyon fonksiyonlarında Bayes tahminlerinin elde edilmesi işlemleri üzerine çalışmışlardır. 5

8 Rao ve Toutenburg (1995), iki seviyeli bağımlı değişkenler için kurulabilecek model tipleri ve bu modellerin türetildiği genelleştirilmiş doğrusal modeller ailesini açıklayarak, çapraz tablolar, en çok olabilirlik fonksiyonu ve tahmin edicileri, logit modeller, lojistik regresyon analizi, uyum iyiliği testleri ve açıklayıcı değişkenlerin kodlama şekilleri üzerinde durmuşlardır. O Neill ve Barry (1995), iki seviyeli bağımlı değişkenin; genel olarak 'var' şeklinde ifade edilen seviyesinin nadir sıklıkta olduğu durumlarda, lojistik regresyon modelleri ve katsayı tahmin metodları üzerinde durmuşlardır. Bu tip denemeler için özellikle trafik kazalarına ait verileri dikkate alarak, kazalarda ölüme sebep olabilecek yaş, cinsiyet, aracın hız limiti gibi bağımsız değişkenlerinin etkilerini araştırmışlardır. Akkaya ve Pazarlıoğlu (1998) lojistik regresyon modellerinin ekonomi alanında kullanımını örneklerle incelemişlerdir. Cox ve ark. (1998) kardiovasküler hastalıklar ve hipertansiyon arasındaki ilişkiyi lojistik regresyon analizini kullanarak incelemişler, sağlık alanında kullanılabilirliği hakkında bilgi vermişlerdir (Bircan 2004). İkili veri tipi özellikle sağlık alanındaki çalışmalarda çok yaygın olarak kullanılmaktadır. Yaşam veya ölüm, sağlıklı veya hasta ve maruz kalma veya maruz kalmama ikili veri tipine örnek olarak gösterilebilir. Lojistik regresyon, ikili yapıdaki değişkenler için tipik olarak kullanılan bir analiz yöntemidir (Lin and Myers 2005). Whitehead (1998), lojistik regresyon analizinin tanımlamaları, kullanılan modele ilişkin temel özellikler, katsayıların tahmini, yorumlanması ve önem testleri ile bazı lojistik regresyon modeli tipleri üzerinde özet açıklamalarda bulunmuştur. Özdamar (2004), lojistik regresyon analizine ilişkin temel açıklamalar da bulunmuş ve SPSS, Minitab ve NCSS istatistik paket programlarında uygulamalı olarak göstermiştir. Bağlantı yada çoklu bağlantı, iki yada daha fazla sayıdaki yüksek ilişkili bağımsız değişken içeren regresyon modellerinde ortaya çıkmaktadır. Çoklu bağlantı aynı zamanda çok seviyeli modellerde, bağımsız değişkenin bireysel-seviyesi ile grup seviyesi arasında yüksek korelasyon olduğu zaman da ortaya çıkmaktadır ( 2006). 6

9 Aguilera ve ark. (2006), modeldeki parametrelerin tahminlerinin bağımsız değişkenler arasında çoklu bağlantı olduğu zaman yeterince kesin olmadığını ve odds oranları vasıtasıyla yorumlanmaları hatalı olabileceğini bildirmişlerdir. Çoklu bağlantıdan sakınarak modeldeki parametrelerin kesin tahminlerini elde etmek için yaptıkları bir simülasyon çalışmasında çoklu bağlantı problemlerini çözmek için kovaryet olan açıklayıcı değişkenlerin temel bileşenlerinin indirgenmiş sayıda olduğu bir lojistik model kullanmayı ileri sürmüşlerdir. Temel bileşenlerin hesaplanmış kendi varyanslarına göre doğal sıralarına veya modele giren diğer temel bileşenlerin koşullu olabilirlik oranı testlerine dayandırılarak stepwise yöntemi ile bağımlı değişkeni açıklayabilme kabiliyetlerini dikkate aldıkları iki metot ile logit modelde bulunan optimum temel bileşenlerin seçilmesini önermişlerdir. Lojistik regresyon modeli, açıklayıcılar arasında güçlü bir bağımlılık olduğu durumlarda kararsız olur. Tüm değişkenler modelde yer aldığı halde hiçbirinin önemli olmadığı sonucuna varılabilir. Bu durumda, yanıt değişkeni ve her bir açıklanabilir değişken arasındaki ilişkinin odds oranları vasıtasıyla yorumlanması hatalı olabilmektedir. Buna rağmen olağan uyum iyiliği ölçümleri bu durumlarda başarı olasılıklarının tahmininin yeterince iyi olduğunu göstermektedir (Aguilera et al. 2006). Hosmer ve Lemeshow (2000), bir çalışmalarında üniform dağılımdan alınan ve aralarında yüksek korelasyon olan X 1 ve X 2 tesadüfen değişkenleri ile bunlardan hemen hemen bağımsız olan X 3 değişkeninin yer aldığı ikili lojistik regresyon modelinin analiz edilmesi sonucunda; sadece X 1 ve X 2 değişkenlerinin yer aldığı modelde, yüksek standart hatalara sahip çok büyük eğim katsayıları hesaplamışlardır. Sadece X 3 değişkenini içeren model için hesaplanan katsayıların ise akla yatkın büyüklüğe sahip olduğu ancak standart hataların beklenenden daha büyük olduğunu saptamışlardır. Tüm değişkenleri içeren modelin ise diğer modellerdeki sonuçların bir karışımı şeklinde olduğunu ve tüm durumlarda normalden çok büyük standart hataların hesaplanmış olmasının, değişkenler arasındaki yüksek korelasyonun lojistik regresyon analizi sonuçlarının güvenilirliğini etkilediğini anlayabilmek için bir ipucu olduğunu bildirmişlerdir. Lojistik regresyon analizinde, tam çoklu bağlantı durumunda sınırsız standart hata ve kesin olmayan katsayıları ortaya çıkartırken, yüksek çoklu bağlantı ise daha yaygın bir 7

10 durum olarak yüksek varyans ve kovaryanslar, büyük güven aralığı ve önemsiz/önemli katsayılara sebep olur. Testin gücü düşük (II Tip hata olasılığı yüksek), R 2 ise yüksektir. Katsayılar ve standart hataları gözlemlerdeki sadece birkaç değişikliliğe bile duyarlıdırlar (Garson 2006). Gerçek gözlem değerlerine bağlı olarak yapılan tüm çalışmalarda varılan ortak sonuç, ikili lojistik regresyon analizinde çoklu bağlantı varlığının doğrusal regresyon analizindekine benzer şekilde yanlış sonuç ve yorumlara neden olabileceği şeklindedir. Hesaplanan katsayıların ve standart hatalarının normalden çok büyük olması, kurulan kontrol hipotezlerinin (H 0 ) kabul veya red edilişlerini etkiler. Bu durumda I. tip hata olasılığı ile testin gücünde beklenenden sapmalar olması çoklu bağlantının yarattığı olumsuzluklar olarak görülmektedir. Bu tez çalışması, bu konuda daha somut bilgilere mümkün olan deneme sayısı ve simülasyon tekniği kullanılarak ulaşılabileceği düşüncesiyle yapılmıştır. 8

11 2. KURAMSAL TEMELLER 2.1 İkili (Binary) Değişken Değişken türü ve değişken seçimi uygulayıcılar için önemli bir problem olmaktadır. Bu problem istatistik yöntemlerin kullanımında yer alan varsayımlardan kaynaklanır. Bazı yöntemler kesin bir şekilde çok değişkenli normal dağılış varsayımı altında geliştirilmiştir ve kesikli veya kategorik değişkenlerin normal dağılım göstermesi söz konusu değildir. Bu durum göz önünde bulundurulması gereken önemli bir konudur (Akkuş ve Çelik 2004). Kullanılan veriler, sınıflayıcı bir ölçek üzerinde ve iki gruba ayırt edilebilen sınıflayıcı bilgi taşıyorsa ikili (binary, dichotomous) adını almaktadır. Sorulara var/yok, ölü/canlı, doğru/yanlış, negatif/pozitif vb. şeklinde sadece iki muhtelif cevaptan birini verebilen değişkenler ikili (binary) değişken olarak adlandırılmaktadır (Gibbons 1976). Hesaplamalarda sağladıkları kolaylık ve analiz sonuçlarının daha rahat yorumlanabilmesi nedeniyle kullanım alanları gün geçtikçe yaygınlaşan ikili veriler, birçok bilim dalında kullanılabilen verilerdir. Özellikle biyolojik ve sosyal bilimlerde çok sık rastlanmaktadır. Lojistik regresyonda, bağımlı değişken çoğunlukla ikilidir; bağımlı değişken başarının olasılığında 1 (θ) değerini, başarısızlığın olasılığında ise 0 (1-θ) değerini alır. Bu tip değişkenler Bernoulli değişkeni olarak da adlandırılır (Tabachnick and Fidel 1996). 9

12 2.2 Çoklu Bağlantı (Multicollinearity) Regresyon uygulamalarının çoğunda, bağımsız değişkenler arasında ilişki söz konusudur. Hatta bazı durumlarda, bağımsız değişkenler arasında çok kuvvetli doğrusal ilişki vardır ve böyle durumlarda, regresyon modeli yardımıyla yapılacak yorumlar yanlış yönlendirmelere ve hatalara neden olur. Oysa çoklu regresyon denkleminin yorumu, bağımsız değişkenlerin kuvvetli bir şekilde ilişkili olmaması varsayımına dayalıdır. Bu varsayımın bozulması, yani bağımsız değişkenler arasında bir yada daha fazla doğrusal bağıntının olması çoklu bağlantı (multicollinearity) sorununu gündeme getirir (Alpar 2003). Çoklu bağlantı, bağımsız değişkenlerin bazıları arasında yüksek derecelerde korelasyon olması durumudur. Birden fazla bağımsız değişken içeren regresyon modellerinin çoğunda ortaya çıkabilecek bir durumdur ( 2006) Çoklu bağlantı durumunda tahminler yansız olsa da bağımsız değişkenlerin kuvvetli ilişkisinin değerlendirilmesi ve birlikte etkilerine ilişkin sonuçlara güvenilemez (yani, bağımsız değişkenlerle en iyi tahmin değerleri elde edilse bile beta katsayıları ve R 2 ler güvenilir bir şekilde yorumlanamaz). Temel kural olarak, bağımsız değişkenler arasındaki korelasyonun 0,80 nin üstünde olması bir çoklu bağlantı sorununa işaret eder. Benzer şekilde yüksek çoklu bağlantı da, yüksek R 2 ve F testinin önemli olarak ortaya çıktığı modelin katsayılarına ait t testinin önemsiz olmasıyla kombine olacağına işaret etmektedir (Garson 2006). Tam çoklu bağlantı, belirlenemeyen katsayılar ve tanımlanamayan standart hata ortaya çıkarırken, yüksek çoklu bağlantıda daha yaygın bir durum olarak yüksek varyans ve kovaryanslar, büyük güven aralığı ve gerçekte önemsiz olduğu halde, yer aldığı denklemin önemli bulunduğu katsayılara sebep olmaktadır. Çoklu bağlantı çoğunlukla aşağıdaki nedenlerden dolayı ortaya çıkmaktadır: 1. Örneğin populasyonu yeterince temsil etmemesi, 2. Dummy değişkenlerinin yanlış kullanımı (bir kategorinin ihmal edilmesi ile yapılan yanlışlık), 10

13 3. Denklemin, diğer değişkenlerden hesaplanabilen bir değişken içermesi, yani bağımsız değişkenler arasında gerçekten ilişki olması, (Ör: Aile Geliri=Aile Reisinin Geliri+Eşinin Geliri; regresyon modelinin, söz konusu 3 gelir ölçütünü de içermesi), 4. Araştırıcıdan kaynaklanan hatalar ( 2006). Kısaca çoklu bağlantı, regresyon katsayılarının varyanslarının ve dolayısıyla güven aralıklarının genişlemesine, önem kontrollerinde hesaplanan test istatistiği değerlerinin küçülmesine yani II. Tip hata olasılığının artmasına, R 2 nin büyümesine, değişkenler arasındaki ilişkiyi belirleyen katsayı tahminlerinin standart hatalarının verilerdeki küçük değişimlerden önemli ölçüde etkilenmesine, gerçek ilişki katsayısının yönü ve büyüklüğü açısından önemli derecede farklılığa ve yanıltıcı değişken seçimlerine neden olmaktadır. Çoklu bağlantı lojistik regresyon modellerinde de bağımsız değişkenler arasında görülen güçlü korelasyonların bir sonucudur. Çoklu bağlantının varlığı, parametrelerin tahminlerinde varyansı büyütür. Özellikle küçük ve orta örnek genişliğine sahip modeller kuvvetli bir şekilde istatistik olarak önemli bulunurken bağımsız değişkenlerin bireysel olarak öneminin azaltır. Çoklu bağlantı aynı zamanda, katsayıların tahmininde yanlış işaret ve büyüklüğe yol açarak bağımlı ve bağımsız değişkenler arasındaki ilişki hakkında yanlış sonuçlara varılmasına sebep olabilir ( 2006) Çoklu bağlantının belirlenmesi Çoklu bağlantının varlığını ortaya çıkaran birçok gösterge vardır. En basit şekilde, iki değişken arasındaki korelasyon katsayısının 1 e yakın olması (yaklaşık 0.80 in üzerinde olması) çoklu bağlantı olabileceğini düşündürür. Ayrıca, çoklu bağlantı varlığının en belirgin belirtilerinden biri de, bir modelde çok yüksek değeri hesaplandığı ve modelin bütünün önemli bulunduğu halde, regresyon katsayılarının istatistik olarak önemsiz olmalarıdır. 11

14 Çoklu bağlantı varlığının göstergeleri; - Korelasyon matrisi: Eğer X i ve X j gibi herhangi iki değişken arasındaki korelasyon katsayısının mutlak değeri ( r ij ), 1 e yaklaşıyorsa bu değişkenler arasında çoklu bağlantının varlığından bahsedilir. Korelasyon katsayılarının tümü şüphe yaratmayacak kadar küçükse, söz konusu bağımsız değişkenler arasında yakın doğrusal bağımlılıkla ilgili bir belirtinin olmadığı söylenebilir. Ancak, korelasyon katsayılarının incelenmesi, ikili çoklu bağlantıdan daha karmaşık çoklu bağlantıların incelenmesi için yeterli değildir (Alpar 2003). - Tolerans Değeri ve Varyans Büyütme Faktörü (Variance Inflation Factors-VIF): Bağımsız değişkenlere ilişkin korelasyon matrisinin tersinin köşegen öğelerine varyans büyütme değerleri denir ve VBF i ile gösterilir. VBF i değerleri tolerans değeri 1-R ile ilgili olarak; ( 2 i ) VBF = 1/(1 - R ) (1) i 2 i (1) numaralı eşitlik ile hesaplanabilir. VBF i ler, iki ve daha fazla çoklu bağlantının varlığını göstermede yaralı olabilecek en iyi ölçütlerden birisidir. Uygulamada, VBF i değerlerinin 10 un üzerinde olması güçlü çoklu bağlantının bir göstergesidir ve ilgili değişkenlere ilişkin regresyon katsayılarına pek güvenilmemesi gerektiğini bildirir. Genellikle bir veya daha fazla VBF nin değeri 10 dan büyükse, çoklu bağlantı sorunu olduğu ifade edilir (Meko 2006). Ancak bazen zayıf lojistik regresyon modellerinde 2.5 in üzerindeki değerler çoklu bağlantıya işaret eder. Benzer şekilde tolerans değerinin 0.10 yada daha düşük olması da bir çoklu bağlantı göstergesidir ( 2006). - Özdeğerler ve Özvektörler: Değişkenlerin doğrusal bileşenleri olan özvektörler, p değişken için p tane tanedir. Özdeğerler ise özvektörlerce açıklanan varyans olarak tanımlanmaktadır. Bağımsız değişkenlere ilişkin korelasyon matrisinin özdeğerleri olan λ, λ,..., λ ; verilerdeki çoklu bağlantının derecesini ölçmede kullanılabilmektedir. 1 2 p Verilerde bir yada daha fazla yakın doğrusal bağımlılık olduğunda, R nin özdeğerlerinin bir yada daha fazlası sıfır yada sıfıra çok yakın olur. Örneğin λ p = 0 ise 12

15 verilerde bir tane doğrusal bağımlılık vardır. Bu amaçla geliştirilmiş iki ölçü aşağıda verilmiştir ( 2006). a) Korelasyon matrisi yardımıyla bulunan öz değerlerin tersleri toplamı, çoklu bağlantı olmadığı durumda, p 1 = p (2) i=1 λ i (2) numaralı eşitlikteki gibi olur. Çoklu bağlantı olduğu durumlarda bu toplamın oldukça büyük değerlere ulaştığı görülür. b) Bu konuya ilişkin ikinci yaklaşımsa, korelasyon matrislerinden elde edilen özdeğerlerden en büyüğünün en küçüğüne oranlanması şeklinde tanımlanır ve bu K (φ ) ile gösterilmektedir. Özdeğerlere ait dağılımın bir ölçüsü olan K ya koşul (durum) sayısı adı verilmekte olup K( φ ) λ λ max = şeklinde ifade edilmektedir. min Koşul sayısı, φ > 1000 ise zararlı bir çoklu bağlantının olduğu, 100 φ < 1000 ise orta derecede çoklu bağıntı sorununun olduğu, φ < 100 ise de önemli sayılabilecek bir çoklu bağlantı sorununun olmadığı sonucuna varılmaktadır ( 2006). K nın karekökü alınarak bulunan ( K = φ ) koşul indeksi de, 15 den küçükse önemli bir çoklu bağlantı sorununun olmadığına, 15 φ < 30 arasındaysa orta derecede çoklu bağıntı sorununun olduğuna ve φ 30 ise şiddetli bir çoklu bağıntının olduğuna karar verilmektedir. Ayrıca regresyon katsayılarının büyüklüğü ve işareti de bazen çoklu bağlantının göstergesi olabilir. Özellikle bir bağımsız değişkenin modele eklenmesi veya modelden çıkarılması regresyon katsayılarının tahmin değerlerinde ve işaretlerinde büyük değişikliklere neden oluyorsa çoklu bağlantının varlığından bahsedilir. Bu göstergeler, sorunun daha açık ve kesin olarak ortaya çıkarılmasında birlikte değerlendirilmelidir (Yavuz ve Türe 2004). 13

16 2.2.2 Çoklu bağlantının ortadan kaldırılması Çoklu bağlantı sorununun giderilmesi, çoklu bağlantının kaynağına, derecesine, regresyon modelinin kullanım amacına ve çoklu bağlantılı etmenlerin önemine bağlı olabilmektedir (Canküyer ve Sönmez 1996). Katsayıların büyüklüklerinde yada işaretlerinde farklılık yaratan çoklu bağlantıyı gidermek için kullanılan tekniklerden bazıları veri toplama ve modeldeki bağımsız değişkenlerin çıkarılmasıyla ilgilidir. Çoklu bağlantı sorununu çözmek için önerilen en etkin yol modeldeki değişkenleri çıkarmadan regresyon katsayılarını yanlı olarak tahmin etmektir. Bağımsız değişkenleri modelden çıkarmadan çoklu bağlantıyı gideren ancak yanlı tahminler veren ridge ve Liu tahmin edicileri bu amaç için kullanılabilir (İpek 2000, Aktaş ve Yılmaz 2003). Çoklu bağıntıyı gidermede kullanılan yöntemler; - Örnek genişliğinin artırılması: Parametre tahminlerine ait varyansların küçülmesini sağlayabilir. Bu nedenle imkan varsa gözlem sayısını artırarak parametre tahminleri yapılmalıdır. - Bağımsız değişkenlerden bazılarının modelden çıkarılması: Aşamalı regresyon yöntemi kullanılarak bağımlı değişken üzerinde daha az etkili olan bağımsız değişkenler regresyon modelinden çıkarılabilir. Ancak bu yol çoklu bağlantının örneklemeden geldiği durumlarda sakıncalıdır. Çünkü gerçekte önemli bir değişken, başka değişkenlerle yapay olarak ilişkili gözüktüğünden modelden çıkarılırsa yanlış model bulgusuna yol açmış olur. - Bağımsız değişkenlerin birleştirilmesi: Sorunun gerçek bir ilişkiden kaynaklandığı durumlarda birbiriyle bağlantılı olan bağımsız değişkenlerden bazılarının birleştirilerek tek bir değişken olarak modele konulabilir. Ancak tercih edilmesi genellikle uygun olmayan bir seçenektir. Çoklu bağlantı yaratan değişkenler tek bir değişken olarak kombine edilebilir. Örneğin; fen, matemetik, ingilizce sınav sonuçları aralarında çoklu bağlantı olduğu belirlenen üç 14

17 değişken olsun. Tüm sonuçlar birleştirilerek, üç değişkenin ortalaması hesaplanır ve bunlar bireysel değişkenler yerine lojistik regresyonda kullanılırsa problem çözülecektir. Başka bir örnek ise ağırlık ve boy değişkenleri yerine vücut kitle indeksinin kullanılmasıdır. ( 2006). - Esas değişken yerine bir oranın kullanılması: Modeldeki bütün değişkenler bağımsız değişkenlerden birisine oranlanır. Bu uygulama çoklu bağlantı sorununa biraz olsun çözüm getirebilmesine rağmen, hata terimlerinin değişen varyanslı olmasına neden olmaktadır. - Yanlı tahmin yöntemlerinin kullanılması: Bağımsız değişkenler arasında ilişki olması durumunda, EKK tahmin edicisi, en küçük varyansa sahip tahmin edici özelliğini kaybetmektedir. Böyle durumlarda β, β yansız tahmin edicisinden daha küçük varyansa sahip olan, * β yanlı tahmin edicisi ile tahmin edilir. Yanlı tahmin yöntemlerinde amaç, yanlılık terimi kullanarak varyansı daha küçük bir tahmin edici bulmaktır (Şekil 2.2.2). Yanlı tahmin yöntemleri; daraltıcı regresyon, temel bileşenler regresyonu, özdeğerler regresyonu ve ridge regresyondur (Canküyer ve Sönmez 1996; Yavuz ve Türe 2004, Garson 2006, Williams 2006 ). Şekil Tahminlerin örnekleme dağılımı 15

18 2.3 I. Tip Hata (α) ve Testin Gücü (1- β) İstatistik testlerin uygulanabilmesi için birtakım ön şartların yerine getirilmesi gerekir. Bu ön şartların tamamen sağlanmadığı durumlarda uygulanacak test sonucu varılacak kararda hata yapma olasılığı da artmaktadır. Bilindiği üzere istatistik testlerin hepsi bir yanılma payı içerir. Bu pay test yapılmadan önce üzerinde durulan konuya bağlı olarak genellikle %0.1, %1, %5 olarak kararlaştırılır. Biyolojik bilimlerde bu olasılıklar içerisinde en yaygın olarak kullanılanları %1 ve %5 dir (Başpınar ve ark., 1999). İstatistik analizler yapılırken, kurulan kontrol hipotezi (H 0 ) gerçekten doğruyken ret edilirse α oranında bir hata yapılır ve bu orana I. tip hata (α) adı verilir. H 0 hipotezi gerçekten yanlış iken kabul edildiğinde ise β oranında bir hata yapılır ve bu orana da II. tip hata denir. 1-α oranına kabul olasılığı yada güven olasılığı adı verilirken 1- β oranına ise testin gücü yada analiz sonuçlarına güvenirlik olasılığı adı verilir. Bir testin kullanılmasının önerilebilmesi için o testin sadece başlangıçta kararlaştırılan I. tip hatayı test sonunda da koruyor olması yeterli olmayıp, aynı zamanda güç (power) değerinin de yüksek olması istenir. Yani yapılan testlerden elde edilen sonuçların güvenilir olması için I. tip hata olasılığının düşük testin gücünün yüksek olması gerekmektedir (Keskin ve Mendeş 2002). Güç oranı alınan kararların bilimselliğini belirleyen bir orandır. Güç Analizi, araştırmada varılan kararın ne kadar güvenilir, geçerli olduğunu tahmin eden bir yöntemdir. %80 ile %95 arasında belirlenmesi önerilen testin gücü, minimum güç %66.7 olmalıdır. Pratikte α=0.05, 1-β=0.80 ve daha büyük değerler test için en yaygın kullanılan değerlerdir. 16

19 2.4 Lojistik Regresyon Analizi Her iki analiz yönteminde de bağımsız değişken veya değişkenlere dayanılarak tahminler yapılmaya çalışılıyorsa da doğrusal ve lojistik regresyon analizi yöntemleri arasında üç önemli fark vardır; 1. Doğrusal regresyon analizinde, bağımlı olarak kabul edilen değişken sürekli iken, lojistik regresyon analizinde kategorik yapıdadır. 2. Doğrusal regresyon analizinde bağımlı değişkenin değeri, lojistik regresyon analizinde ise bağımlı değişkenin alabileceği değerlerden birinin gerçekleşme olasılığı tahmin edilir. 3. Doğrusal regresyon analizinde bağımsız değişkenlerin çoklu normal dağılım göstermesi koşulu aranırken, lojistik regresyon analizi için bağımsız değişkenlerin dağılımına ilişkin her hangi bir ön koşul yoktur (Hosmer and Lemeshow 2000, Şahin ve Efe 2003, Eyduran, 2005). Gözlemleri verilerin yapısında bulunan olası gruplara atamak için kullanılan istatistiksel yöntemler kümeleme analizi, diskriminant analizi ve lojistik regresyon analizidir. Bu üç yöntemden diskriminant analizi ile kümeleme analizi sıkça incelenerek birçok gerçek hayat problemine uygulanmıştır. Lojistik regresyon konusundaki çalışma ve uygulamalar ise daha çok son yıllara dayanmaktadır. Yöntem çeşitli varsayım bozulumları durumunda (normallik, ortak kovaryansa sahip olma gibi) diskriminant analizi ve çapraz tablolara bir alternatif olarak kullanılmaktadır. Ayrıca bağımlı değişkenin 0/1 gibi ikili (binary) yada ikiden çok düzey içeren (polycehotomous) kesikli değişken olması durumunda normallik varsayımının bozulması nedeniyle de doğrusal regresyon analizine alternatif olmaktadır. (Ünal 1996, Seven 1997). Veri tipi, gözlemlerin bağımsızlığı, grup sayısı ve testlerin ön şartları dikkate alınarak uygun analiz yöntemleri belirlendiğinde lojistik regresyon analizin kullanıldığı durumlar Çizelge de görüldüğü gibidir. 17

20 Çizelge Veri tipi, gözlemlerin bağımsızlığı, grup sayısı ve testlerin ön şartları dikkate alınarak uygun analiz yöntemlerinin belirlenmesi (Çamdeviren ve ark. 2003) Bağımlı Değişken Sayısı ve Tipi 1 Tane Bağımlı Değişken ve Kategorik Bağımsız Değişken Sayısı ve Tipi Amaç Kullanılabilecek Testin Adı 1 tane bağımsız ve sürekli değişken (normal dağılımlı) 1 tane bağımsız ve kategorik değişken 1 den fazla bağımsız ve kategorik değişken 1 den fazla bağımsız ve hepsi kategorik değişken 1 den fazla bağımsız ve hepsi sürekli değişken (normal dağılımlı) Sınıflandırma İlişki ve risk belirlemek ve sınıflandırma İlişki ve risk miktarlarını belirlemek ve sınıflandırma İlişki belirleme ve sınıflandırma İlişki ve risk miktarlarını belirlemek ve sınıflandırma Diskriminant Analizi veya Lojistik Regresyon Analizi Pearson Ki-Kare, Fisher Exact, Log.Likelihood, Risk İstatistikleri Lojistik Regresyon Analizi, Log.Lineer Modeller, Çok Yönlü Ki-Kare Tabloları Lojistik Regresyon Analizi veya Diskriminant Analizi Lojistik Regresyon Analizi Anket sonuçlarına ilişkin verilerin değerlendirilmesi sırasında, verilerin yapısında bulunan gruplara gözlemleri en doğru şekilde atayacak modeli elde etmek önemli bir husustur. Bu tür çalışmalarda, genelde kesikli değişken olması ve normallik varsayımından söz edilmemesi nedeniyle çözümlemede lojistik regresyon çözümlemesi kullanılmaktadır (Ünal, 1996). Lojistik Regresyon modelleri bağımlı değişkenin yapısına göre üçe ayrılmaktadır. Bu modellerden İkili Lojistik Regresyon Modeli, kategorik bağımlı değişkenin iki durumlu (Örn: var-yok) olduğu durumda kullanılmaktadır. Multinomial Lojistik Regresyon modeli kategorik bağımlı değişkenin çok kategorili ve nominal (Örn: Medeni durum, Evli- Bekar- Boşanmış) olduğu durumlarda kullanılırken; çok kategorili ve sıralı bir yapı söz konusu ise (Örn: Likert tipi ölçekler, az-orta-çok) Sıralı (Ordinal) Lojistik Regresyon modelleri kullanılmaktadır (Barak vd. 2005). O halde lojistik regresyon analizinde bağımlı değişkenin yapısına bağlı olarak üç temel yöntem vardır. 18

21 1. İkili Lojistik Regresyon (BLOGREG, Binary Logistic Regression) 2. Sıralı Lojistik Regresyon (OLOGREG, Ordinal Logistic Regression) 3. İsimsel Lojistik Regresyon (NLOGREG, Nominal Logistic Regression, Multinomial Logistic Regression) Elde edilen gözlem değerlerine lojistik regresyon analizinin uygulanacağına karar verildikten sonra izlenecek işlem sırası şöyle olmalıdır; Katsayıların en çok olabilirlik tahmin edicisi (Maximum likelihood, ML) yardımıyla tahmin edilmesi, Katsayıların yorumlanması, Katsayılara ait hipotez kontrollerinin yapılması, Modelin başarısının değerlendirilmesi (Whitehead, 2006). Lojistik fonksiyonun matematiksel olarak kullanımı kolay olup lojistik regresyon parametreleri kolaylıkla yorumlanabilmekte ve analiz için Minitab, SPSS, SAS, Systat, NCSS ve S-Plus gibi birçok istatistik paket programlar rahatlıkla kullanılabilmektedir Lojistik regresyon analizinde değişken seçimi Lojistik regresyon analizi; sürekli, kesikli, ikili yada bunların herhangi bir karışımı olan veri setlerinden kategorik bir sonucu tahmin etmeye olanak sağlar. Lojistik regresyon modelinde; a) Sadece kategorik bağımsız değişken/değişkenler, b) Sadece sürekli bağımsız değişken/değişkenler, c) Hem kategorik hem de sürekli bağımsız değişkenler yer alabilir. 19

22 Bağımlı değişkendeki varyasyonu açıklamak için kurulan bir regresyon eşitliğine girecek değişken sayısı ne kadar çok olursa, eşitlik o kadar küçük hata taşımaktadır. Ancak, gerek bağımsız değişkenlerin her birisiyle gözlem elde etmenin getireceği yük, gerekse bu gözlemleri belirli bir zaman aralığında yapma mecburiyetinin getireceği zorluklar ve olası hatalar bağımsız değişken sayısını azaltmayı zorunlu kılabilir. Bu nedenle, tahminin doğruluğu mümkün olduğunca yüksek tutulmalı; ayrıca ekonomik yük ve zorlukların yanı sıra, fazla değişkenle ilgili veri elde etmenin getirebileceği sistematik hataları mümkün olduğunca azaltabilecek sayıda bağımsız değişkenle çalışılması araştırıcılar açısından önemli bulunmaktadır (Düzgüneş ve ark, 1987). Lojistik regresyon denklemlerinde bulunan bağımsız değişkenlerin tümünün bağımlı değişkeni açıklamak için etkili olması her zaman mümkün olmamaktadır. Hatayı açıklayamayan değişkenlerin denklemde tutulması lojistik regresyon denkleminin etkinliğini ve tahmin gücünü düşürmektedir. Ölçülecek olan bağımsız değişkenlerden de bazılarının denklemde önemli bir etkide bulunmamaları durumunda, bu değişkenlerin ölçümleri ile yapılacak olan gereksiz harcamaları ortadan kaldırmak amacıyla değişken eleme yöntemleri olarak bilinen istatistik yöntemler kullanılmaktadır. Değişken seçimi yöntemlerinden yaygın olarak bilinenleri; ileri doğru seçim (forward selection), geriye doğru eleme (backward elemination) ve tüm olası regresyon yaklaşımı (all possible regression) gibi değişik yaklaşımları mevcut olan adımsal regresyon (stepwise), ve en iyi regresyon modeli bulma (best regression) yöntemleridir (Miller 1990, Önder 2001, Özdamar 2004) Lojistik regresyon modelinin kurulması Gözlenen verilerin analiziyle ilgilenildiğinde, kuramsal bir istatistik modelin matematik fonksiyonlarla ifade edilmesi gereği ortaya çıkar. Bu fonksiyonlar, gözlenen verilerden hareketle gelecekteki olaylar hakkında tahmin yapılmasına ve olaylara etki eden faktörlerin belirlenmesine olanak sağlarlar. Olaylara çözüm getirmede, aynı amaç için farklı modeller gerekebilir. Ancak, aynı amaç için farklı modellerin kullanılması bazı risklere yol açabilir. Tercihi belirleyecek etken, riski en az olan yol seçilerek bu riskleri minimum yapan daha etkin modelin kullanılması olmalıdır (Ediz vd. 2005). 20

23 İstatistik metotlar, doğrusal veya doğrusal olmayan bir model kurularak geliştirilmiştir. Kurulacak modelin tipi; modelde yer alan bağımlı (sonuç, tepki) ve bağımsız (kovaryat, etki, risk faktörü, açıklayıcı) değişken adedine, değişkenlerin elde ediliş şekillerine ve değişkenler arasındaki ilişkilere bağlı olarak değişir (Çamdeviren 2000). Basit doğrusal regresyon modeli; Y = β 0 + β 1 X + ε (3) (3) numaralı eşitlik ile, çoklu doğrusal regresyon modeli ise; Y = β 0 + β1x 1 + β2 X βk X k + ε (4) (4) numaralı eşitlik ile ifade edilir. Burada; Y: Bağımlı değişkeni, X / X 1, X 2,..., X k : Bağımsız (Açıklayıcı) değişken / değişkenleri, β 0 : Bağımsız değişken / değişkenler sıfır değerini aldığında bağımlı değişkenin değerini, yani sabiti, β 1, β 2,, β k Bağımsız değişkenlerin regresyon katsayılarını, ε: Hata terimini, k: Bağımsız değişken sayısını göstermektedir. Basit ve çoklu doğrusal regresyon modelinde, bağımlı değişkenin, verilen bağımsız değişken yada değişkenlerin değerlerine göre beklenen değeri (ortalama değeri) basit doğrusal regresyon modeli için; E( Yˆ X ) = β + β X (5) (5) numaralı eşitlik ile, çoklu doğrusal regresyon modeli ise; E( Yˆ X, X,..., X ) = β + β X + β X β X (6) 1 2 k k k 21

24 (6) numaralı eşitlik ile ifade edilir. Hata teriminin beklenen değeri sıfırdır. Parametre tahminleri yukarıdaki bağımlı değişkenin beklenen değerlerini veren modellere göre yapılmaktadır. Basit ve çoklu doğrusal regresyon yöntemlerinin uygulanabileceği veri setlerinde; 1. Bağımlı değişkenin (Y) normal dağılım göstermesi, 2. Bağımsız değişkenlerin normal dağılım gösteren populasyonlardan hatasız ölçümler olarak belirlenmesi, 3. Bağımsız değişkenler arasında çoklu bağlantı (multicollinearity) olmaması, 4. Hata teriminin, tüm bağımsız değişkenler için sıfır ortalamalı ve aynı σ 2 varyanslı normal dağılım göstermesi ε N(0, σ 2 ), 5. Hata terimleri arasında otokorelasyon olmaması, E(ε i, ε j )=0, 6. Hata terimleri ile bağımsız değişkenler arasında bir korelasyon olmaması E(εi,Xi)=0, varsayımları gerekmektedir (Yamane, 1969). Yukarıdaki varsayımların yerine getirilemediği veri setlerine basit yada çoklu doğrusal regresyon analizi uygulanamaz. Lojistik regresyon analizinde bu varsayımlar ön koşul değildir. Bağımlı değişken üzerinde açıklayıcı değişkenlerin etkileri olasılık olarak elde edilir. Ancak lojistik regresyon analizi de bağımsız değişkenler arasında çoklu bağlantının olmamasını şart koşmasa da varlığından etkilenmektedir. Lojistik regresyon modeli, genel doğrusal modellerin binom dağılımlı bağımlı değişkenler için elde edilmiş olan özel bir biçimidir. Hem teorik hem de deneysel incelemeler bağımlı değişken iki sonuçlu iken cevap fonksiyonunun ( p/( 1-p)) şeklinin S veya ters S şeklinde olacağını göstermiştir. Bağımlı değişken, Şekil de görüldüğü gibi bitiş noktaları dışında yaklaşık olarak doğrusaldır. Bu cevap fonksiyonları 0 ile 1 değerlerinde X ve Y eksenlerine asimptottur (Hosmer and Lemeshow, 1980). 22

25 Şekil İkili (binary) bağımlı değişkenin S ve ters S şeklindeki olasılık fonksiyonu grafikleri Şekil de gösterilen fonksiyonlar, lojistik cevap fonksiyonları olarak bilinir. Lojistik fonksiyonun 0 ile 1 arasında bir değişim aralığına sahip olması lojistik fonksiyonun tercih edilmesindeki ilk önemli nedendir. Lojistik model, ortaya çıkacak riski 0 ile 1 arasında herhangi bir değer olarak tahmin etmeye yarar. Başka bir deyişle 1 in üstünde veya 0 ın altında bir risk olmaz. ( 2006). İncelenen bir olayın olasılığının kendi dışında kalan diğer olayların olasılığına oranına odds değeri denilmekte ve P α+ βx OddsDeğeri = = e 1 - P (7) (7) numaralı eşitlikteki ile hesaplanmaktadır. Burada P üzerinde durulan olayın olasılığını, 1-P ise üzerinde durulmayan olayın olasılığını göstermektedir. Odds değeri 0 ile + arasında değerler almaktadır. İncelenen iki farklı olayın odds değerlerinin birbirine oranına odds oranı (odds ratio, OR) denilmektedir. Odds oranı, incelenen iki olayın gözlenme olasılıklarından birinin diğerine oranla kaç kat daha fazla veya kaç kat daha az olarak ortaya çıkabileceğini göstermekte olup (8) numaralı eşitlik ile hesaplanmaktadır (Salmi et al. 2006). 23

26 α + β e β OR = = e α (8) e Eğer bu oran l den büyük çıkarsa, Örneğin incelenen D olayının, E kümesi içinde ortaya çıkma olasılığının E kümesi dışında gözlenme olasılıklarına göre o kadar kat artacağını, eğer l den küçük çıkarsa, incelenen A olayının, E kümesi içinde ortaya çıkma olasılığının E kümesi dışında gözlenme olasılığına göre o kadar kat azalacağını gösterir (Wilson and Langenberg 1999). İncelenen bir olasılığın (P), odds değerinin doğal logaritması lojit fonksiyon olarak adlandırılır. İncelenen olasılığın (P) lojit fonksiyonunda ki gösterimi (9) numaralı eşitlik şeklindedir. æ P ö Lojit [ P ] = ln = ln( ODDS P ) ç è1- P ø (9) İncelenen olasılığın odds değeri 0 ile + arasında değer alırken aynı olasılığın lojit değeri - ile + arasında değerler alabilmektedir (Salmi et al. 2006). Olasılıkların lojit fonksiyonunun kullanılmasının amacı, doğrusal bir model elde edilerek, parametre tahminlerinin yapılmasıdır. İncelenen bir olasılığın (P) lojit değeri doğrusal modele eşitlendiğinde; æ P ö Lojit[ P] = ln = b + b X + b X b X ç è1- P ø k k (10) (10) numaralı eşitlik elde edilir. Elde edilen bu eşitlik, basit ve çoklu doğrusal regresyon modellerindeki bağımlı değişkenin beklenen değerini veren ve parametre tahminlerinde kullanılan eşitliğe benzer bir eşitliktir. E( Yˆ X 1, X 2,..., X k ) değeri ile Lojit[P] değeri - ile + arasında değerler almaktadır. Bu eşitlikten incelenen olasılık (P); 24

27 P e = 1 + e β + β X β X β + β X + + β p p X p p (11) (11) numaralı eşitlik şeklinde elde edilir. Bu eşitliğe lojistik regresyon modeli denir (Şekil ). Burada; P : İncelenen olayın gözlenme olasılığını, Β 0 : Bağımsız değişkenler sıfır değerini aldığında bağımlı değişkenin değerini, yani sabiti, β 1,β 2,,β k : Bağımsız değişkenlerin regresyon katsayılarını, X 1, X 2,, X k : Bağımsız değişkenleri, p : Bağımsız değişken sayısını, e = 2,718 sayısını göstermektedir. Şekil Doğrusal olasılık modeli ve lojistik regresyon modeli (Whitehead 2006) 25

28 İkili (binary) lojistik regresyon modelinde bağımsız değişkenler ya faktör değişken yada ortak değişkenlerdir. Bağımlı değişkende incelediğimiz kategori genel olarak Y=1 ile kodlanır. Diğer kategoride Y=0 ile ifade edilir. Bu durumda incelediğimiz kategorinin olasılık değerini bağımsız değişkenlerle analiz eden ikili lojistik regresyon modeli istenen olaya ait olasılık P, istenmeyen olayın olasılığı ise 1-P olduğunda; Y Var Yok Var X P( y x= 1) P( y x= 0) Yok 1 P( y x= 1) 1 P( y x= 0) İstenen olayın olasılığı (Y=1); (12) β + β X β X p p e 1 P(Y = 1 X, X,..., X ) = = 1 + e 1 + e 1 2 p β + β X β X ( β + β X β X ) p p p p İstenmeyen olayın olasılığı (Y=0) ise (13) e P(Y = 0 X,X,...,X ) = 1 P(Y = 1 X,X,...,X ). = 1 1+ e β + β X β X p p 1 2 p 1 2 p β + β X β X = e p p β + β X β X p p eşittir ve bu iki olasılığın birbirine oranı daha önce tanımlanmış olan odds oranını vermektedir (Salmi et al. 2006). Odds değeri ile üzerinde durulan olayın olma olasılığı arasındaki ilişki Odds=p/1-p şeklinde ifade edilir. Odds değerinin, 1 ve 1 den büyük olduğu durumlarda p olayının gerçekleşme olasılığının artması yönünde bir kanı oluşmaktadır (Parvin 2003). Fakat p olayının gerçekleşmesi konusunda kesin bir yargıya varabilmek için, odds değerinin hem 1 yada 1 den büyük hem de Wald istatistiğinin (Ki-kare) istatistik olarak önemli çıkması gerekmektedir. 1 26

29 2.4.3 Katsayılarının tahmini N tane bağımsız gözlem çifti (x i, y i ) (i = 1,2,...,n) ele alındığında y i, i. deney ünitesinden ölçülen bağımlı değişkenin değerini, x i ise aynı deney ünitesindeki bağımsız değişkenin değerini gösterir. Ayrıca bağımlı değişkenin 0 veya 1 gibi değerlerden birini aldığı varsayılırsa, lojistik regresyon modelinin kullanılabilmesi için bilinmeyen parametrelerden β 0 ve β 1 in tahmin edilmesi gerekir. Doğrusal regresyonda bilinmeyen parametreleri tahmin etmek için en sık kullanılan yöntem En Küçük Kareler (EKK) yöntemidir. Bu yöntemde β 0 ve β 1 parametreleri öyle seçilir ki bu değerler, Y nin gözlenen değerlerinin, tahmin edilen değerlerden sapmalarının kareler toplamını minimum yapar. Buna karşın, lojistik regresyon analizinde en küçük kareler yöntemi uygulandığı zaman tahmin ediciler bu tür özelliklere artık sahip olmamaktadırlar. Lojistik regresyon modelinde parametrelerin tahmininde yaygın olarak kullanılan yöntem, en çok olabilirlik (Maximum Likelihood Estimator, MLE) yöntemidir. Genel anlamda en çok olabilirlik yöntemi, gözlenen veri kümesini elde etme olasılığını maksimum yapan bilinmeyen parametrelerin değerlerini verir. Bu yöntemi uygulamak için önce en çok olabilirlik fonksiyonunun oluşturulması gerekmektedir. Bu fonksiyon, bilinmeyen parametrelerin bir fonksiyonu olarak gözlenen verinin olasılığını verir. Bu parametrelerin en çok olabilirlik tahminleri, fonksiyonu maksimum yapan değerleri bulacak şekilde seçilir. Bu nedenle, sonuçta elde edilen tahmin ediciler, gözlenen verilerle çok yakın değerlere sahiptir. Bu değerlerin lojistik regresyon modelinden nasıl bulunacağı aşağıda tanımlanacaktır. (X i, Y i ) çiftinin olabilirlik fonksiyonuna katkısı (14) numaralı eşitlikteki gibidir. y 1- y ξ(x ) = π(x ) i [1 - π(x )] i i i i (14) Gözlemlerin birbirlerinden bağımsız olduğu varsayıldığında, yukarıda elde edilen ξ(x i ) terimlerinin çarpılmasıyla olabilirlik fonksiyonu (15) numaralı eşitlikte ki gibi elde edilir. 27

LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ LOJİSTİK REGRESYON ANALİZİ Lojistik Regresyon Analizini daha kolay izleyebilmek için bazı terimleri tanımlayalım: 1. Değişken (incelenen özellik): Bireyden bireye farklı değerler alabilen özellik, fenomen

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık KORELASYON ve REGRESYON ANALİZİ Doç. Dr. İrfan KAYMAZ Tanım Bir değişkenin değerinin diğer değişkendeki veya değişkenlerdeki değişimlere bağlı olarak nasıl etkilendiğinin istatistiksel

Detaylı

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1 3. TAHMİN 3.1. En Küçük Kareler (EKK) Yöntemi 1 En Küçük Kareler (EKK) yöntemi, regresyon çözümlemesinde en yaygın olarak kullanılan, daha sonra ele alınacak bazı varsayımlar altında çok aranan istatistiki

Detaylı

İçindekiler. Ön Söz... xiii

İçindekiler. Ön Söz... xiii İçindekiler Ön Söz.................................................... xiii Bölüm 1 İstatistiğe Giriş....................................... 1 1.1 Giriş......................................................1

Detaylı

14 Ekim 2012. Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

14 Ekim 2012. Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi ÇOK DEĞİŞKENLİ REGRESYON ANALİZİ: ÇIKARSAMA Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge 14 Ekim 2012 Ekonometri

Detaylı

1. FARKLILIKLARIN TESPİTİNE YÖNELİK HİPOTEZ TESTLERİ

1. FARKLILIKLARIN TESPİTİNE YÖNELİK HİPOTEZ TESTLERİ 1. FARKLILIKLARIN TESPİTİNE YÖNELİK HİPOTEZ TESTLERİ Örneklem verileri kullanılan her çalışmada bir örneklem hatası çıkma riski her zaman söz konusudur. Dolayısıyla istatistikte bu örneklem hatasının meydana

Detaylı

Nitel Tepki Bağlanım Modelleri

Nitel Tepki Bağlanım Modelleri Doğrusal-Dışı Yaklaşım ve Nitel Tepki Bağlanım Modelleri Doğrusal-Dışı Yaklaşım ve Ekonometri 2 Konu 18 Sürüm 2,0 (Ekim 2011) Doğrusal-Dışı Yaklaşım ve UADMK Açık Lisans Bilgisi İşbu belge, Creative Commons

Detaylı

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 ) 4. SUNUM 1 Gözlem ya da deneme sonucu elde edilmiş sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir. Sonuçların rastlantıya bağlı

Detaylı

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ DÖNEM I-I. DERS KURULU Konu: Bilimsel yöntem ve istatistik Amaç: Biyoistatistiğin tıptaki önemini kavrar ve sonraki dersler için gerekli terminolojiye hakim olur.

Detaylı

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI ÖNSÖZ İÇİNDEKİLER III Bölüm 1 İSTATİSTİK ve SAYISAL BİLGİ 11 1.1 İstatistik ve Önemi 12 1.2 İstatistikte Temel Kavramlar 14 1.3 İstatistiğin Amacı 15 1.4 Veri Türleri 15 1.5 Veri Ölçüm Düzeyleri 16 1.6

Detaylı

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1 İÇİNDEKİLER ÖNSÖZ... v 1. BÖLÜM Örneklem Genişliğinin Elde edilmesi... 1 1.1. Kitle ve Parametre... 1 1.2. Örneklem ve Tahmin Edici... 2 1.3. Basit Rastgele Örnekleme... 3 1.4. Tabakalı Rastgele Örnekleme...

Detaylı

Ekonometri I VARSAYIMLARI

Ekonometri I VARSAYIMLARI Ekonometri I ÇOK DEĞİŞKENLİ REGRESYON MODELİNİN VARSAYIMLARI Hüseyin Taştan Temmuz 23, 2006 İçindekiler 1 Varsayım MLR.1: Parametrelerde Doğrusallık 1 2 Varsayım MLR.2: Rassal Örnekleme 1 3 Varsayım MLR.3:

Detaylı

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU

YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU Marmara Üniversitesi U.B.F. Dergisi YIL 2005, CİLT XX, SAyı 1 YARI LOGARİTMİK MODELLERDE KUKLA DECİşKENLERİN KA TSA YıLARıNIN YORUMU Yrd. Doç. Dr. Ebru ÇACLAYAN' Arş. Gör. Burak GÜRİş" Büyüme modelleri,

Detaylı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı ARAŞTIRMA MODELLİLERİNDE KULLANILACAK İSTATİSTİKLERİ BELİRLEME ÖLÇÜTLERİ Parametrik mi Parametrik Olmayan mı? Kullanılacak İstatistikleri Belirleme Ölçütleri Değişken Sayısı Tek değişkenli (X) İki değişkenli

Detaylı

MIT OpenCourseWare http://ocw.mit.edu. 14.30 Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

MIT OpenCourseWare http://ocw.mit.edu. 14.30 Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009 MIT OpenCourseWare http://ocw.mit.edu 14.30 Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009 Bu materyale atıfta bulunmak ve kullanım koşulları için http://ocw.mit.edu/terms sayfasını ziyaret ediniz.

Detaylı

altında ilerde ele alınacaktır.

altında ilerde ele alınacaktır. YTÜ-İktisat İstatistik II Nokta Tahmin Yöntemleri 1 NOKTA TAHMİN YÖNTEMLERİ Şimdiye kadar verilmiş tahmin edicilerin sonlu örneklem ve asimptotik özelliklerini inceledik. Acaba bilinmeyen anakütle parametrelerini

Detaylı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı REGRESYON ANALİZİ VE UYGULAMA Yrd. Doç. Dr. Hidayet Takcı htakci@cumhuriyet.edu.tr Sunum içeriği Bu sunumda; Lojistik regresyon konu anlatımı Basit doğrusal regresyon problem çözümleme Excel yardımıyla

Detaylı

OLASILIK ve KURAMSAL DAĞILIMLAR

OLASILIK ve KURAMSAL DAĞILIMLAR OLASILIK ve KURAMSAL DAĞILIMLAR Kuramsal Dağılımlar İstatistiksel çözümlemelerde; değişkenlerimizin dağılma özellikleri, çözümleme yönteminin seçimi ve sonuçlarının yorumlanmasında önemlidir. Dağılma özelliklerine

Detaylı

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım 2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI 2.1. Tanım Regresyon analizi, bir değişkenin başka bir veya daha fazla değişkene olan bağımlılığını inceler. Amaç, bağımlı değişkenin kitle ortalamasını, açıklayıcı

Detaylı

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır. AED 310 İSTATİSTİK YANLILIK Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır. YANLILIK Yanlı bir araştırma tasarımı uygulandığında,

Detaylı

Matris Cebiriyle Çoklu Regresyon Modeli

Matris Cebiriyle Çoklu Regresyon Modeli Matris Cebiriyle Çoklu Regresyon Modeli Hüseyin Taştan Mart 00 Klasik Regresyon Modeli k açıklayıcı değişkenden oluşan regresyon modelini her gözlem i için aşağıdaki gibi yazabiliriz: y i β + β x i + β

Detaylı

BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1 Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı Mart 2015 0 SORU 1) Bulanık Küme nedir? Bulanık Kümenin (fuzzy

Detaylı

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2 Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi Cilt 5, Sayı:2, 2003 YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI Sibel SELİM 1 Efe SARIBAY

Detaylı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. Örnek Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. i. ii. X 1 2 3 4 1 2 3 4 Y 2 3 4 5 4 3 2 1 Örnek Aşağıdaki veri

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı KORELASYON VE REGRESYON ANALİZİ Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı İki ya da daha çok değişken arasında ilişki olup olmadığını, ilişki varsa yönünü ve gücünü inceleyen korelasyon

Detaylı

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir. ÇIKARSAMALI İSTATİSTİKLER Çıkarsamalı istatistikler, örneklemden elde edilen değerler üzerinde kitleyi tanımlamak için uygulanan istatistiksel yöntemlerdir. Çıkarsamalı istatistikler; Tahmin Hipotez Testleri

Detaylı

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Ç.Ü. Fen Bilimleri Enstitüsü Yıl:010 Cilt:-1 İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Işıl FİDANOĞLU İstatistik Anabilim Dalı Fikri

Detaylı

Korelasyon, Korelasyon Türleri ve Regresyon

Korelasyon, Korelasyon Türleri ve Regresyon Korelasyon, Korelasyon Türleri ve Regresyon İçerik Korelasyon Korelasyon Türleri Korelasyon Katsayısı Regresyon KORELASYON Korelasyon iki ya da daha fazla değişken arasındaki doğrusal ilişkiyi gösterir.

Detaylı

İÇİNDEKİLER 1. GİRİŞ...

İÇİNDEKİLER 1. GİRİŞ... İÇİNDEKİLER 1. GİRİŞ... 1 1.1. Regresyon Analizi... 1 1.2. Uygulama Alanları ve Veri Setleri... 2 1.3. Regresyon Analizinde Adımlar... 3 1.3.1. Problemin İfadesi... 3 1.3.2. Konu ile İlgili Potansiyel

Detaylı

SIRADAN EN KÜÇÜK KARELER (OLS)

SIRADAN EN KÜÇÜK KARELER (OLS) SIRADAN EN KÜÇÜK KARELER (OLS) YÖNTEMİNİN ASİMPTOTİK ÖZELLİKLERİ Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ 1 BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel

Detaylı

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ MAK 210 SAYISAL ANALİZ BÖLÜM 6- İSTATİSTİK VE REGRESYON ANALİZİ Doç. Dr. Ali Rıza YILDIZ 1 İSTATİSTİK VE REGRESYON ANALİZİ Bütün noktalardan geçen bir denklem bulmak yerine noktaları temsil eden, yani

Detaylı

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar 3+0 3 3 Ön Koşul Yok Dersin Dili Türkçe Dersin Seviyesi Lisans Dersin Türü Seçmeli Dersi Veren Öğretim Elemanı

Detaylı

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 5: SEKK (OLS) nin Asimptotik

Detaylı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

Detaylı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

Detaylı

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005 KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005 1 Karşılaştırma istatistiği Temel kavramlar: Örneklem ve evren:

Detaylı

0.04.03 Standart Hata İstatistikte hesaplanan her istatistik değerin mutlaka hatası da hesaplanmalıdır. Çünkü hesaplanan istatistikler, tahmini bir değer olduğu için mutlaka hataları da vardır. Standart

Detaylı

Kestirim (Tahmin) Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir.

Kestirim (Tahmin) Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir. Biyoistatistik 9 Kestirim (Tahmin) Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir. Evren parametrelerinin kestirilmesi (tahmini) için: 1. Hipotez testleri 2. Güven

Detaylı

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir Bilimsel Araştırma Yöntemleri Prof. Dr. Şener Büyüköztürk Doç. Dr. Ebru Kılıç Çakmak Yrd. Doç. Dr. Özcan Erkan Akgün Doç. Dr. Şirin Karadeniz Dr. Funda Demirel Örnekleme Yöntemleri Evren Evren, araştırma

Detaylı

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Yrd. Doç. Dr. Emre ATILGAN 1 RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Olasılığa ilişkin olayların çoğunluğunda, deneme sonuçlarının bir veya birkaç yönden incelenmesi

Detaylı

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009 MIT OpenCourseWare http://ocw.mit.edu 14.30 Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009 Bu materyale atıfta bulunmak ve kullanım koşulları için http://ocw.mit.edu/terms sayfasını ziyaret ediniz.

Detaylı

İSTATİSTİKSEL VERİ ANALİZİ

İSTATİSTİKSEL VERİ ANALİZİ İSTATİSTİKSEL VERİ ANALİZİ Prof. Dr. Gül ERGÜN Hacettepe Üniversitesi Kasım 2013 İstatistik Nedir? İSTATİSTİK Belirli bir konuda toplanan sayısal değerlerdir. Buna göre, 2012 yılında Türkiye de kayıtlı

Detaylı

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri II Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Ch. 12: Zaman Serisi Regresyonlarında

Detaylı

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik 6.SUNUM İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik özellikleri (ortalama, varyans v.b. gibi) hakkında

Detaylı

BÖLÜM 13 HİPOTEZ TESTİ

BÖLÜM 13 HİPOTEZ TESTİ 1 BÖLÜM 13 HİPOTEZ TESTİ Bilimsel yöntem aşamalarıyla tanımlanmış sistematik bir bilgi üretme biçimidir. Bilimsel yöntemin aşamaları aşağıdaki gibi sıralanabilmektedir (Karasar, 2012): 1. Bir problemin

Detaylı

009 BS 400- İstatistik sonılannın cevaplanmasında gerekli olabilecek tablolar ve formüller bu kitapçığın sonunda verilmiştir. 1. şağıdakilerden hangisi doğal birimdir? l TV alıcısı Bl Trafik kazası CL

Detaylı

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir. Koşullu Öngörümleme Ex - ante (tasarlanan - umulan) öngörümleme söz konusu iken açıklayıcı değişkenlerin hatasız bir şekilde bilindiği varsayımı gerçekçi olmayan bir varsayımdır. Çünkü bazı açıklayıcı

Detaylı

K-S Testi hipotezde ileri sürülen dağılımla örnek yığılmalı dağılım fonksiyonunun karşılaştırılması ile yapılır.

K-S Testi hipotezde ileri sürülen dağılımla örnek yığılmalı dağılım fonksiyonunun karşılaştırılması ile yapılır. İstatistiksel güven aralıkları uygulamalarında normallik (normal dağılıma uygunluk) oldukça önemlidir. Kullanılan parametrik istatistiksel tekniklerin geçerli olabilmesi için populasyon şans değişkeninin

Detaylı

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ Dersin Adı Kodu Sınıf/Y.Y. Ders Saati (T+U+L) Kredi AKTS OLASILIK VE İSTATİSTİK FEB-222 2/ 2.YY 3+0+0 3 3 Dersin Dili Dersin Seviyesi

Detaylı

SÜREKLİ RASSAL DEĞİŞKENLER

SÜREKLİ RASSAL DEĞİŞKENLER SÜREKLİ RASSAL DEĞİŞKENLER Sürekli Rassal Değişkenler Sürekli Rassal Değişken: Değerleriölçümyadatartımla elde edilen, bir başka anlatımla sayımla elde edilemeyen, değişkene sürekli rassal değişken denir.

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler 1 SIRADAN EN KÜÇÜK KARELER (OLS) YÖNTEMİNİN ASİMPTOTİK ÖZELLİKLERİ Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi İktisat Bölümü Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge

Detaylı

OLASILIK ve İSTATİSTİK Hipotez Testleri

OLASILIK ve İSTATİSTİK Hipotez Testleri OLASILIK ve İSTATİSTİK Hipotez Testleri Yrd.Doç.Dr. Pınar YILDIRIM Okan Üniversitesi Mühendislik ve Mimarlık Fakültesi Bilgisayar Mühendisliği Bölümü Hipotezler ve Testler Hipotez, kitleye(yığına) ait

Detaylı

2018 YILI BİRİNCİ SEVİYE AKTÜERLİK SINAVLARI İSTATİSTİK VE OLASILIK 29 NİSAN 2018

2018 YILI BİRİNCİ SEVİYE AKTÜERLİK SINAVLARI İSTATİSTİK VE OLASILIK 29 NİSAN 2018 2018 YILI BİRİNCİ SEVİYE AKTÜERLİK SINAVLARI İSTATİSTİK VE OLASILIK 29 NİSAN 2018 Sigortacılık Eğitim Merkezi (SEGEM) tarafından hazırlanmış olan bu sınav sorularının her hakkı saklıdır. Hangi amaçla olursa

Detaylı

QUANTILE REGRESYON * Quantile Regression

QUANTILE REGRESYON * Quantile Regression QUANTILE REGRESYON * Quantile Regression Fikriye KURTOĞLU İstatistik Anabilim Dalı Olcay ARSLAN İstatistik Anabilim Dalı ÖZET Bu çalışmada, Lineer Regresyon analizinde kullanılan en küçük kareler yöntemine

Detaylı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER ÖN SÖZ... İÇİNDEKİLER ÖN SÖZ... v GİRİŞ... 1 1. İSTATİSTİK İN TARİHÇESİ... 1 2. İSTATİSTİK NEDİR?... 3 3. SAYISAL BİLGİDEN ANLAM ÇIKARILMASI... 4 4. BELİRSİZLİĞİN ELE ALINMASI... 4 5. ÖRNEKLEME... 5 6. İLİŞKİLERİN

Detaylı

BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI)

BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI) 1 BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI) Hipotez testi konusunda görüldüğü üzere temel betimleme, sayma ve sınıflama işlemlerine dayalı yöntemlerin ötesinde normal dağılım

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım Dr. Deniz Özel Erkan Evren Parametre Örneklem Çıkarım Veri İstatistik İstatistik Tanımlayıcı (Descriptive) Çıkarımsal (Inferential) Özetleme

Detaylı

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI Araştırmalarda incelenen olaylar göstermektedir ki tek değişkenli istatistiklerin kullanılması problemi açıklamakta yetersiz ve eksik kalmaktadır.

Detaylı

HİPOTEZ TESTLERİ. Yrd. Doç. Dr. Emre ATILGAN

HİPOTEZ TESTLERİ. Yrd. Doç. Dr. Emre ATILGAN HİPOTEZ TESTLERİ Yrd. Doç. Dr. Emre ATILGAN Hipotez Nedir? HİPOTEZ: parametre hakkındaki bir inanıştır. Parametre hakkındaki inanışı test etmek için hipotez testi yapılır. Hipotez testleri sayesinde örneklemden

Detaylı

REGRESYON ANALĐZĐ. www.fikretgultekin.com 1

REGRESYON ANALĐZĐ. www.fikretgultekin.com 1 REGRESYON ANALĐZĐ Regresyon analizi, aralarında sebep-sonuç ilişkisi bulunan iki veya daha fazla değişken arasındaki ilişkiyi belirlemek ve bu ilişkiyi kullanarak o konu ile ilgili tahminler (estimation)

Detaylı

İSTATİSTİKTE TEMEL KAVRAMLAR

İSTATİSTİKTE TEMEL KAVRAMLAR İSTATİSTİKTE TEMEL KAVRAMLAR 1. ve 2. Hafta İstatistik Nedir? Bir tanım olarak istatistik; belirsizlik altında bir konuda karar verebilmek amacıyla, ilgilenilen konuya ilişkin verilerin toplanması, düzenlenmesi,

Detaylı

Appendix C: İstatistiksel Çıkarsama

Appendix C: İstatistiksel Çıkarsama Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix C: İstatistiksel Çıkarsama

Detaylı

1 PAZARLAMA ARAŞTIRMASI

1 PAZARLAMA ARAŞTIRMASI İÇİNDEKİLER ÖNSÖZ III Bölüm 1 PAZARLAMA ARAŞTIRMASI 11 1.1. Pazarlama Araştırması Kavramı ve Kapsamı 12 1.2. Pazarlama Araştırmasının Tarihçesi 14 1.3. Pazarlama Araştırması Pazarlama Bilgi Sistemi ve

Detaylı

Deneysel Araştırmalarda Uygun Örneklem Büyüklüğü Ve İstatistiksel Güç Analizi. Doç Dr. Nurhan DOĞAN AKÜ Tıp Fak. Biyoistatistik ve Tıbbi Bilişim AD

Deneysel Araştırmalarda Uygun Örneklem Büyüklüğü Ve İstatistiksel Güç Analizi. Doç Dr. Nurhan DOĞAN AKÜ Tıp Fak. Biyoistatistik ve Tıbbi Bilişim AD Deneysel Araştırmalarda Uygun Örneklem Büyüklüğü Ve İstatistiksel Güç Analizi Doç Dr. Nurhan DOĞAN AKÜ Tıp Fak. Biyoistatistik ve Tıbbi Bilişim AD Giriş Yeterli Örneklem Büyüklüğü Neden Önemlidir? Özel

Detaylı

Bir Normal Dağılım Ortalaması İçin Testler

Bir Normal Dağılım Ortalaması İçin Testler Bir Normal Dağılım Ortalaması İçin Testler İÇERİK o Giriş ovaryansı Bilinen Bir Normal Dağılım Ortalaması İçin Hipotez Testler P-değerleri: II. Çeşit hata ve Örnekleme Büyüklüğü Seçimi Örnekleme Büyüklüğü

Detaylı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix C: İstatistiksel Çıkarsama Doç.

Detaylı

Mann-Whitney U ve Wilcoxon T Testleri

Mann-Whitney U ve Wilcoxon T Testleri Mann-Whitney U ve Wilcoxon T Testleri Doç. Dr. Ertuğrul ÇOLAK Eskişehir Osmangazi Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı Konu Başlıkları Parametrik olmayan yöntem Mann-Whitney U testinin

Detaylı

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 İstatistik İstatistik, belirsizliğin veya eksik bilginin söz konusu olduğu durumlarda çıkarımlar yapmak ve karar vermek için sayısal verilerin

Detaylı

İZMİR DEKİ ÖZEL VE DEVLET ÜNİVERSİTELERİNDEKİ ÖĞRENCİLERİN BAŞARILARINI ETKİLEYEN FAKTÖRLERİN BELİRLENMESİ VE KARŞILAŞTIRILMASI ÖZET

İZMİR DEKİ ÖZEL VE DEVLET ÜNİVERSİTELERİNDEKİ ÖĞRENCİLERİN BAŞARILARINI ETKİLEYEN FAKTÖRLERİN BELİRLENMESİ VE KARŞILAŞTIRILMASI ÖZET Muğla Üniversitesi Sosyal Bilimler Enstitüsü Dergisi (İLKE) Bahar 2007 Sayı 18 İZMİR DEKİ ÖZEL VE DEVLET ÜNİVERSİTELERİNDEKİ ÖĞRENCİLERİN BAŞARILARINI ETKİLEYEN FAKTÖRLERİN BELİRLENMESİ VE KARŞILAŞTIRILMASI

Detaylı

Kategorik Veri Analizi

Kategorik Veri Analizi Kategorik Veri Analizi 6.Sunum Yrd. Doç. Dr. Sedat ŞEN 1 ANALİZ TÜRLERİ Bağımlı Değ. Bağımsız Değ. Analiz Sürekli İki kategorili t-testi, Wilcoxon testi Sürekli Kategorik ANOVA, linear regresyon Sürekli

Detaylı

Appendix B: Olasılık ve Dağılım Teorisi

Appendix B: Olasılık ve Dağılım Teorisi Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix B: Olasılık ve Dağılım

Detaylı

Hastane Personelinin Kan Bağışı Hakkındaki Bilgi, Tutum ve Davranışlarının Çok Değişkenli Lojistik Regresyon Yöntemiyle İncelenmesi

Hastane Personelinin Kan Bağışı Hakkındaki Bilgi, Tutum ve Davranışlarının Çok Değişkenli Lojistik Regresyon Yöntemiyle İncelenmesi İnönü Üniversitesi Tıp Fakültesi Dergisi 12(1) 25-29 (2005) Hastane Personelinin Kan Bağışı Hakkındaki Bilgi, Tutum ve Davranışlarının Çok Değişkenli Lojistik Regresyon Yöntemiyle İncelenmesi Zeki Akkuş*,

Detaylı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix B: Olasılık ve Dağılım Teorisi

Detaylı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix B: Olasılık ve Dağılım Teorisi

Detaylı

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5 Ders Kodu: 0010070021 Kredi: 3 / ECTS: 5 Yrd. Doç. Dr. Serkan DOĞANALP Necmettin Erbakan Üniversitesi Harita Mühendisliği Bölümü Konya 07.01.2015 1 Giriş 2 Giriş Matematiksel istatistiğin konusu yığın

Detaylı

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER SPSS in üzerinde işlem yapılabilecek iki ana ekran görünümü vardır. DATA VIEW (VERİ görünümü) VARIABLE VIEW (DEĞİŞKEN görünümü) 1 DATA VIEW (VERİ görünümü) İstatistiksel

Detaylı

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi Sık kullanılan istatistiksel yöntemler ve yorumlama Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi Biyoistatistik AD Bşk. 1 Hakkımda 2 Hedef: Katılımcılar modülün sonunda temel istatistiksel yöntemler

Detaylı

RİSK ANALİZİ VE AKTÜERYAL MODELLEME

RİSK ANALİZİ VE AKTÜERYAL MODELLEME SORU 1: Bir hasar sıklığı dağılımının rassal değişken olan ortalaması (0,8) aralığında tekdüze dağılmaktadır. Hasar sıklığı dağılımının Poisson karma dağılıma uyduğu bilindiğine göre 1 ya da daha fazla

Detaylı

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

6. Ders. Genelleştirilmiş Lineer Modeller (Generalized Linear Models, GLM)

6. Ders. Genelleştirilmiş Lineer Modeller (Generalized Linear Models, GLM) 6. Ders Genelleştirilmiş Lineer Modeller (Generalized Linear Models, GLM) Y = X β + ε Lineer Modeli pek çok özel hallere sahiptir. Bunlar, ε nun dağılımına (bağımlı değişkenin dağılımına), Cov( ε ) kovaryans

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ 1 BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel sayma

Detaylı

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER Gözden Geçirilmiş ve Genişletilmiş 8. Baskı Frekans Dağılımları Varyans Analizi Merkezsel

Detaylı

GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı Kestirim Pratikte kitle parametrelerinin doğrudan hesaplamak olanaklı değildir. Bunun yerine

Detaylı

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER LAGRANGE YÖNTEMİ Bu metodu incelemek için Amaç fonksiyonu Min.z= f(x) Kısıtı g(x)=0 olan problemde değişkenler ve kısıtlar genel olarak şeklinde gösterilir. fonksiyonlarının

Detaylı

BİYOİSTATİSTİK PARAMETRİK TESTLER

BİYOİSTATİSTİK PARAMETRİK TESTLER BİYOİSTATİSTİK PARAMETRİK TESTLER Doç. Dr. Mahmut AKBOLAT *Bir testin kullanılabilmesi için belirli şartların sağlanması gerekir. *Bir testin, uygulanabilmesi için gerekli şartlar; ne kadar çok veya güçlü

Detaylı

İLERİ BİYOİSTATİSTİK KURSU

İLERİ BİYOİSTATİSTİK KURSU 1.GÜN (14 Eylül 2017) 08:30-09:00 Kurs Kayıt Açılış Konuşması 09:00-10:00 Tanışma -Katılımcıların Temel İstatistik Bilgisinin Değerlendirilmesio Çok Değişkenli İstatistiksel Yöntemlere Giriş o Basit Doğrusal

Detaylı

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ LOJİSTİK REGRESYON VE BANKACILIK VERİLERİ ÜZERİNE BİR UYGULAMA ELMİRA KOCABAŞ

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ LOJİSTİK REGRESYON VE BANKACILIK VERİLERİ ÜZERİNE BİR UYGULAMA ELMİRA KOCABAŞ T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ LOJİSTİK REGRESYON VE BANKACILIK VERİLERİ ÜZERİNE BİR UYGULAMA ELMİRA KOCABAŞ YÜKSEK LİSANS TEZİ İSTATİSTİK ANABİLİM DALI İSTATİSTİK PROGRAMI DANIŞMAN

Detaylı

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

rasgele değişkeninin olasılık yoğunluk fonksiyonu, 3.6. Bazı Sürekli Dağılımlar 3.6.1 Normal Dağılım Normal dağılım hem uygulamalı hem de teorik istatistikte kullanılan oldukça önemli bir dağılımdır. Normal dağılımın istatistikte önemli bir yerinin olmasının

Detaylı

1: DENEYLERİN TASARIMI VE ANALİZİ...

1: DENEYLERİN TASARIMI VE ANALİZİ... İÇİNDEKİLER Bölüm 1: DENEYLERİN TASARIMI VE ANALİZİ... 1 1.1. Deneyin Stratejisi... 1 1.2. Deneysel Tasarımın Bazı Tipik Örnekleri... 11 1.3. Temel Kurallar... 16 1.4. Deneyleri Tasarlama Prensipleri...

Detaylı

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS DİSKRİMİNANT ANALİZİ (AYIRIM) Emre KUZUGÜDENL DENLİ Doç.Dr.Serdar CARUS Bu analiz ile; Bir bireyin hangi gruptan geldiği (p değişkeni kullanarak, bireyi uygun bir gruba atar ) Her bir değişkenin atama

Detaylı

TRAFĠK KAZA ĠSTATĠSTĠKLERĠNE ANALĠTĠK BĠR BAKIġ. Prof.Dr.Tülay Saraçbaşı Hacettepe Üniversitesi İstatistik Bölümü, Ankara. Özet

TRAFĠK KAZA ĠSTATĠSTĠKLERĠNE ANALĠTĠK BĠR BAKIġ. Prof.Dr.Tülay Saraçbaşı Hacettepe Üniversitesi İstatistik Bölümü, Ankara. Özet TRAFĠK KAZA ĠSTATĠSTĠKLERĠNE ANALĠTĠK BĠR BAKIġ Prof.Dr.Tülay Saraçbaşı Hacettepe Üniversitesi İstatistik Bölümü, Ankara Özet Trafik kazasına neden olan etkenler sürücü, yaya, yolcu olmak üzere insana

Detaylı

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( ) İKİ DEĞİŞKENLİ OLASILIK Rassal bir deneme yapılmakta ve farklı iki olay ile ilgilenilmektedir. A 1, A 2,,A i olayları bağdaşmaz ve bütünü kapsayıcıdır. B 1, B 2,,B j olayları bağdaşmaz ve bütünü kapsayıcıdır.

Detaylı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız. .4. Merkezi Eğilim ve Dağılım Ölçüleri Merkezi eğilim ölçüleri kitleye ilişkin bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi bir değeri gösterirler. Dağılım ölçüleri ise değişkenin

Detaylı

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın. KUKLA DEĞİŞKENLİ MODELLER Bir kukla değişkenli modeller (Varyans Analiz Modelleri) Kukla değişkenlerin diğer kantitatif değişkenlerle alındığı modeller (Kovaryans Analizi Modeller) Kukla değişkenlerin

Detaylı