AST416 Astronomide Sayısal Çözümleme - II. 5. Model Testi, Karşılaştırma ve En İyi Modelin Seçimi

AST416 Astronomide Sayısal Çözümleme - II 5. Model Testi, Karşılaştırma ve En İyi Modelin Seçimi

"All models are wrong" George Box 1976, Science and Statistics, Journal of the American Statistical Association "All models are wrong but some are useful" George Box Launer & Wilkinson, 1979, Robustness in the strategy of scientific model building, Academic Press "truth is much too complicated to allow anything but approximations" John von Neumann, 1947

Bu derste neler öğreneceksiniz? Artıklar (Residuals) Artık Kareler Toplamı (Residual Sum of Squares) Kök Ortalama Kare Hatası/Sapması (Root Mean Square Error/Deviation) Gecikme Grafiği (Lag Plot) Durbin-Watson İstatistiği Uyumlama Testi Serbestlik Derecesi (Degrees of Freedom) Sıfır Hipotezi, H 0 (Null Hypothesis) Güven Aralığı Güven Düzeyi (Confidence Interval Confidence Level) Anlamlılık Seviyesi (Statistical Significance) Ki-kare ve Ki-kare Testi (Pearson s Chi-squared Test) İndirgenmiş Ki-kare (Reduced Chi-squared) Kovaryans ve Kovaryans Matrisi (Covariance Matrix) p Değeri (p-value) Varyans Analizi (Analysis of Variance ANOVA) F-Testi Akaike Bilgi Ölçütü (Akaike Information Criterion) Bayes Bilgi Ölçütü (Bayesian Information Criterion) Veriyi Dışlamak!

Artıklar (Residuals) Bir uyumlama işlemi sonunda, gözlemsel veri ile uyumlama eğrisinin değerleri arasındaki farklara artık denir. Artıkların dağılımı ve trendi, uyumlamada kullanılan yöntemin veya modelin ne kadar başarılı veya kabul edilebilir olduğunun bir ölçütü olarak kullanılabilir.

Artıklar (Residuals) Bakıra ait X-ışın bölge kırınım tayfına yapılan uyumlama işlemi ve artıkları. a) Uyumlama işleminde iki uçlu model kullanılmıştır. b) Tek uçlu model uyumlanmıştır.

Artıklar (Residuals)

Artıklar (Residuals) Değişen varyans sorunu söz konusu olduğu durumlarda, doğrudan artıklara bakmak yerine, normalize artıklara bakmak anlamlı olabilir. R i, normalize artıkları, yi ölçüm değerlerini, y(x i ) model değerlerini ve α i ölçüm hatalarını göstermektedir.

Artık Kareler Toplamı (Residual Sum of Squares) Uyumlama sonrası elde edilen artıkların kareleri toplamı, artıkların uyumlama değerlerinden ne kadar farklı olduğunu gösterir. Bu değer, bir uyumlama işleminin ne kadar başarılı olduğunun doğrudan bir göstergesi değildir. Kök Ortalama Kare Hatası/Sapması (Root Mean Square Error/Deviation) Uyumlama sonrası elde edilen artıkların karekök ortalamaları, artıkların uyumlama etrafında ne kadar saçıldığını gösterir. Bu değer de, bir uyumlama işleminin ne kadar başarılı olduğunun doğrudan bir göstergesi değildir.

Gecikme Grafiği (Lag Plot) Bir ölçümün değerlerindeki bağlı değişkenin, sırası değiştirilerek kendi değerlerine göre çizdirilen grafiklerdir. Bir sıra kaydırılarak çizilen gecikme grafiklerine birinci dereceden gecikme grafiği adı verilir. Genellikle birinci dereceden gecikme grafikleri kullanılmaktadır. Bu grafiklerin kullanılmasıyla aşağıdaki özellikler sınanabilir: Model uygunluğu Aykırı değerleri Verinin rastgeleliği Seri korelasyon/otokorelasyon (hatanın bir sonraki veri grubuna aktarılması) Dönemli dalgalanmalar

Gecikme Grafiği (Lag Plot) Model uygunluğu Gecikme grafiğinin şekli uygulanabilecek modelin yapısına ilişkin fikir verebilmektedir. Örneğin gecikme grafiğinin Lineer bir trende sahip olması, otoregresif (modelin bir önceki bağlı değişkene göreli değiştiği) modellerin kullanılabileceği, Eliptik bir şekle sahip olması, değişimin baskın bir sinüsel yapıya sahip olduğu bilgilerini verebilir.

Gecikme Grafiği (Lag Plot) Seri korelasyon/otokorelasyon

Gecikme Grafiği (Lag Plot) Verinin rastgeleliği Dönemli dalgalanmalar

Durbin-Watson İstatistiği Uyumlama Testi Durbin-Watson istatistiği kullanılarak model uyumlamanın başarısı test edilebilir. Burada D, Durbin-Watson istatistiği, R i, uyumlama sonrası elde edilen artıklar, R i-1 ise i-1 sırasıyla başlayan artıklardır. D nin alacağı değerlere göre aşağıdaki çıkarımlar yapılabilir: D = 0; artıklar sistematik olarak korelasyon göstermektedir. D = 2; artıklar normal dağılıma sahiptir. D = 4; artıklar sistematik olarak antikorelasyona sahiptir.

Durbin-Watson İstatistiği Uyumlama Testi a) D = 1.97 b) D = 1.12

Serbestlik Derecesi (Degrees of Freedom) Serbest olarak değişebilen değerlerin sayısıdır. Örnek dağılımın eleman sayısına bağlıdır. Bir uyumlama söz konusu ise kullanılan parametre sayısına da bağlı olur. Eleman sayısının fazla olması serbest olarak değişebilecek değerlerin sayısının fazla olması anlamına gelir. Bir örnek dağılım için, df = N -1 Burada serbestlik derecesi df, eleman sayısı ise N dir. Örnek dağılım, bir ana dağılımdan üretilmekte olduğu için, örnek dağılımın ortalama değeri, ana dağılımın ortalama temsil etmelidir. Bu durum serbestlik derecesinin 1 azalması anlamına gelir. Eğri uyumlama durumunda, df = N m Burada m, uyumlamada kullanılan parametre sayısıdır. Uyumlamada kullanılan parametre sayısının fazla olması serbest olarak değişebilen değerlerin sayısının parametre sayısı kadar azalması anlamına gelir.

Sıfır Hipotezi, H 0 (Null Hypothesis) Genellikle gözlenen bir olayın sadece rastgele süreçler ile oluştuğunu belirten hipotezdir. Gözleme ilişkin alternatif hipotezin (H 1 ) geçerliliğinin test edilmesi için kullanılır. Sıfır hipotezinin yanlışlanamaması durumunda gözlenen olayın sadece rastgele süreçlerden kaynaklandığı (ya da sıfır hipotezinin geçerliliği) kabul edilir. Sıfır hipotezinin yanlışlanması durumunda alternatif hipotezin doğruluğu kanıtlanmış olmaz. Ancak gözlenen olgunun sadece rastgele süreçlerden (ya da sıfır hipotezinin öngördüğü süreçlerden kaynaklanmadığı sonucuna varılır. Sıfır hipotezinin yanlışlanması için, alternatif hipotezin gerçekleşebilme ihtimalinin, rastgele süreçler ile (ya da sıfır hipotezinin ilgilendiği dağılıma göre) benzer olayın gözlenebilme ihtimalinden anlamlı bir mertebede yüksek olması gerekir. Örneğin; bir bitkiyi sulamanın, bitkinin büyüme hızıyla alakalı olduğunu söyleyen bir alternatif hipotezin kabul edilebilmesi için, bitkinin büyüme hızıyla sulama arasında bir ilişki olmadığını söyleyen sıfır hipotezinin yanlışlanması gerekir. Örneğin; piramitleri uzaylıların inşa ettiğini iddia eden alternatif hipotezin kabul edilebilmesi için, piramitleri uzaylıların inşa etmediğini iddia eden sıfır hipotezinin yanlışlanması gerekir.

Sıfır Hipotezi, H 0 (Null Hypothesis) Sıfır hipotezi hata türleri Tip I Hata, Sıfır hipotezinin doğruluğuna rağmen reddetmek: doğruluğun kontrol edildiği olasılık olması gerekenden yüksektir. Örnek sayısının azlığından da oluşabilir. Tip II Hata, Sıfır hipotezinin yanlışlığına rağmen kabul etmek: doğruluğun kontrol edildiği olasılık çok düşüktür.

Güven Aralığı Güven Düzeyi (Confidence Interval Confidence Level)

Güven Aralığı (Confidence Interval) %95 güven aralığında bulunan bir değer, deney/gözlem tekrarlanmaya devam edilirse tekrarların %95 inde, gerçek değer bulunan güven aralığında çıkacaktır anlamına gelir.

Güven Aralığı (Confidence Interval) t-değeri tablosu

Güven Aralığı (Confidence Interval) Z değeri ise kısaca 68-95- 99.7 kuralı olarak bilinen, normal dağılımın standart sapması değerlerine karşılık, bu standart sapma değerlerinin kapsadığı yüzdelik dilimi temsil etmektedir. Örn: %95 güven seviyesi için z değeri 1.96 olur.

Güven Aralığı (Confidence Interval)

Anlamlılık Seviyesi (Statistical Significance) Bir alternatif hipotezin kanıtlanmaya çalışıldığı (örn. bir uyumlama işleminin yapıldığı) bir deneyde, gözlenen olayın gerçekleşebilme ihtimalinin bir kritik değerden (α) büyük olması durumunda istatistiksel olarak anlamlı olduğu sonucuna varılır. Gözlenen olayın rastgele süreçlerden meydana gelip gelmediği test edilmek istendiği için, olayın gerçekleşme ihtimali bir normal dağılım kullanılarak incelenir. Eğer olaya ilişkin dağılımın rastgele dağılım olmadığı biliniyorsa ilgili dağılım kullanılır. Ancak yeterli sayıda örnek dağılım elemanı bulunmuyorsa normal dağılım yerine, düşük serbestlik derecelerine daha duyarlı olan t-dağılımı kullanılır. Istatistiksel anlamlılığın belirlenebilmesi için kullanılan kritik değer α, bir olasılık değeri anlamındadır. Farklı bilim dallarında farklı değerleri kabul görülmektedir. Gözlenen olgunun rastgeleliğinin büyük oranda beklenir olduğu durumda daha küçük olasılık değerleri verilmesi uygun olur. Anlamlılık seviyesi, toplam olasılık olan 1 den güven seviyesinin farkıdır.

Anlamlılık Seviyesi (Statistical Significance) Sıfır hipotezi doğru ise ve normal dağılım sergilemesi bekleniyorsa, normal dağılımca beklenen en olası değer ortalama değerdir. Bu durumda kritik olasılık değeri (α) belirlendiği takdirde, kritik değere göre ortalamaya daha yakın olan toplam olasılık değerleri sıfır hipotezinin kabul edilmesi anlamına gelir. Bu durumda sıfır hipotezi 1- α güven aralığında kabul edilmiş olur. Eğer gözlenen olay, sıfır hipotezi ile beklenen olasılıktan kritik değere göre daha düşük bir toplam ihtimale sahipse (yani kritik değerden daha küçükse) sıfır hipotezi yanlışlanmış olur ve bu alternatif hipotezin anlamlılık seviyesi α olur.

Ki-kare (Chi-square)

Ki-kare (Chi-square) Ki-kare değeri aynı parametre sayısına sahip iki modelin doğrudan karşılaştırılması için bir gösterge olarak kullanılabilir.

Ki-kare Testi (Pearson s Chi-squared Test) Bir gözlem verisinin, gözlenen olaya ilişkin teori ile tutarlılığının sınanmasıdır. Bu testte sıfır hipotezi teorik yaklaşım gözlem verisi ile tutarlıdır. olur. Sıfır hipotezi doğru ise uyumlama sonrası artıkları, rastgele hatalardan kaynaklanır ve normal dağılım gösterir. Sıfır hipotezi doğru ise her bir gözlem verisinin uyumlama eğrisinden rastgele farklarının toplamı ki-kare dağılımı vereceğinden ki-kare testi uygulanabilir. Test adımları şu şekildedir: 1. Ki-kare değeri hesaplanır. 2. Serbestlik derecesi hesaplanır. 3. Bir güven aralığı seçilir. 4. Ki-kare tablolarından ilgili serbestlik derecesi ve güven aralığına karşılık gelen kritik ki-kare değeri, hesaplanan ki-kare ile karşılaştırılır. 5. Hesaplanan ki-kare değeri, tablodaki kritik değerden küçük ise sıfır hipotezi (gözlem verisinin teori ile tutarlı olduğu) kabul edilir. Eğer büyük ise sıfır hipotezi yanlışlanmış olur (teori gözlem ile tutarlı değildir). Ki-kare değeri aynı parametre sayısına sahip iki modelin doğrudan karşılaştırılması için bir gösterge olarak da kullanılabilir.

Ki-kare Testi (Pearson s Chi-squared Test) Ki-kare tablosu Örneğin, serbestlik derecesi 5 olan bir uyumlama işleminde kikare değeri 10 ise, sıfır hipotezi-gözlem uyumluluğu %10 ile %5 arasındadır. Eğer kritik değer α, 0.1 (%10) seçilmişse sıfır hipotezi 100*(1- α) güven seviyesinde reddedilir; eğer kritik değer %5 (1-2σ) seçilmişse sıfır hipotezi kabul edilir.

İndirgenmiş Ki-kare (Reduced Chisquared)

Kovaryans Kovaryans cov(a,b): rastgele iki değişken arasındaki lineer ilişkiyi veren istatistiksel ölçüttür. Bir değişkenin (X) değerinde değişim olması durumunda diğer değişkenin (Y) değerinde ne yönlü bir değişim olduğunu belirtir. Burada E[i], X değişkenin beklenen değeridir. Beklenen değer olarak ortalama değer alınabilir. Kovaryans değeri, değişkenlerin değerlerinin birbirlerine göre hangi yönde (pozitif, negative ya da sıfır) lineer ilişkiye sahip olduğunu söyler.

Kovaryans Yandaki örnekte x ve y değişkenlerinin değerleri ve ilgili kovaryans hesabı görülmektedir. Burada, cov(x,y) = 962.4/9 cov(x,y) = 106.93 elde edilir. Bu rakamın büyüklüğü değil, işareti kovaryansın yönünü verir ve bu örnek için pozitif kovaryans bulunmaktadır. Yani x değerleri arttıkça, y değerleri de artmaktadır.

Kovaryans Matrisi Değişkenlerin birbirlerine göre kovaryans değerlerinin bulunduğu matrise kovaryans martisi adı verilir. Bu matriste farklı parametre ikililerinin birbirlerine göre nasıl bir lineer ilişkiye sahip oldukları hakkında bilgi elde edilebilir. Bu bilgi ile sadece uyumlamanın istatistiksel başarısı dışında, modelin fiziksel anlamına uygun ikili parametre ilişkilerinin bulunup bulunmadığı test edilebilir.

Kovaryans Matrisi Bir uyumlama işleminde kullanılan model parametrelerinin kovaryans matrisi, parametrelerin beklenen değerleri (örn. en küçük kareler yaklaşımı ile elde edilen en iyi değerleri) etrafındaki değişimlerinin bir diğer parametre ile lineer ilişkide olup olmadığı elde edilir. Bunun için parametrelerin en iyi değerleri hesaplanır. Bu değerler kovaryans hesabında E[X] değerleridir. E[X] değeri bir miktar azaltılır ve arttırılır. Buna karşılık E[Y] değerlerinin hangi değerleri aldığı elde edilir. cov(x,y) değeri hesaplanır ve matriste karşılık geldiği satır ve sütuna göre kaydedilir. Kovaryans matrisin diagonal değerleri (cov(x,x), cov(y,y),..) o parametrenin varyans değeridir. Kovaryans hesabı yapan bazı programlar (kodlar) bu eksende doğrudan ilgili parametrenin değerini verebilir.

p Değeri (p-value) Sıfır hipotezinin doğru olması durumunda, gözlenen olayların beklenen olasılıkta ya da daha ender görülmesi olasılığı değeridir. Eğer uyumlamada kullanılan model (yani hipotez) doğru kabul edilirse, uyumlama ile elde edilen ki-kare değerinin ya da daha büyük bir ki-karenin sadece rastlantı ile elde edilebilme ihtimalini veren değerdir. Eğer p değeri küçük değilse, gözlem verisi model ile uyumludur denilebilir. Model ile beklenen ki-kare değerinin (ya da daha büyük ki-kare değerlerinin) sadece rastgelelilik ile elde edilebilmesi olasıdır. Eğer p değeri küçük ise, gözlem verisi model ile uyumlu değildir. Yani gözlem verileri, model ile beklenen değerlerden büyük farklılık göstermektedir. Başka bir deyişle gözlem verilerinin, kabul edilen hipoteze göre elde edilebilmesi olası değildir.

p Değeri (p-value) p değeri ihtiyaca göre örneğin 0.05, 0.01, 0.001 gibi değerleri alabilir. Yapılan testte ilgilenilen bölgeye göre üç farklı anlama sahip olabilir. Sağ taraflı Sol taraflı Iki taraflı Eğer p değeri, seçilen bir güven seviyesinden daha küçük ise sıfır hipotezi reddedilir. Bu durum, verinin sıfır hipotezi dışında alternatif bir hipotezin açıklanabilmesine uygun olmasından kaynaklanmaktadır. Ancak ki-kare değeri gözlem verilerindeki hata üzerinden hesaplandığı için, Gözlem hataları olması gerekenden küçük ise ki-kare değeri olası olmayan miktarda büyük hesaplanır. Gözlem hataları olması gerekenden büyük ise ki-kare değeri olası olmayan miktarda küçük hesaplanır. Yani sıfır hipotezinin yorumlanmasından önce gözlem verisinin hataları gözden geçirilmelidir. Sıfır hipotezinin reddedilmesi, alternatif hipotezi doğrulamaz!

Varyans Analizi (Analysis of Variance ANOVA) Örnek grupları arasındaki ortalamala farklarını, temelde, grupların varyansları üzerinden analiz eden istatistiksel yöntemlerdir. Örnek gruplar iki veya daha fazla sayıda olabilir. ANOVA nın temelleri istatistikçi ve biyolog Ronald A. Fisher tarafından atılmıştır. ANOVA nın temel varsayımları: Örnek gruplar normal dağılım göstermektedir. Gözlemlere ilişkin hatalar birbirlerinden bağımsızdır. Aykırı gözlemler bulunmamaktadır ya da ayıklanmıştır. Farklı örnek gruplarda, her bağımsız değişkene ilişkin varyans değerleri eşittir. ANOVA nın sıfır hipotezi, tüm örnek grupların ortalama değerleri birbirlerine eşittir. Alternatif hipotez ise, örnek grupların ortalama değerleri birbirlerine eşit değildir. Test edilen olguya ilişkin ortalama değeri değiştirebilecek tek bir etkinin (faktörün) bulunması durumunda ana etken (ing. main effect) test edilmiş olur. Eğer olguya ilişkin birden fazla etki bulunuyorsa bu etkiler arasındaki ilişki de ortaya çıkartılabileceği için etkileşim etkeni (ing. interaction effect) de test edilebilir. Bu durumda, Sıfır hipotezi, etkileşim yoktur. Alternatif hipotez, etkileşim vardır. olur.

Varyans Analizi (Analysis of Variance ANOVA) Deneysel araştırma alanlarında (örn. biyoloji, tıp, kimya) kullanılabildiği gibi, deneysel olmayan araştırma alanlarında (örn. astronomi) de kullanılabilmektedir. Deneysel araştırmalara örnek olarak; bir ilacın farklı dozajlarının sonuç etkide değişime sebep olup olmadığı testi yapılabilir. Böyle bir testte, tek bir değişken (dozaj) bulunduğundan bu teste tek yönlü ANOVA (ing. one way ANOVA) denilir. Eğer bu deneyde farklı dozajların farklı cinsiyetlere etkileri ve cinsiyetler arası bir farklılığın olup olmadığı test edilmek istenirse iki değişken olması sebebiyle (dozaj ve cinsiyet) bu teste iki yönlü ANOVA (ing. two way ANOVA) denilir. ANOVA nın temel adımları şu şekildedir: Sıfır ve alternatif hipotezin tanımlanması Kritik olasılık değerinin (α) tanımlanması Serbestlik derecesinin hesaplanması Hipotez seçim kararının belirlenmesi Test istatistiği değerinin belirlenmesi Sonucun belirlenmesi ve yorumlanması Model uyumlamada, farklı modellerden en iyi uyumu sağlayanın seçilebilmesi için, ANOVA da kullanılan yöntemlerden biri olan F-testi kullanılabilir.

F-Testi Bir gözlem verisine yapılan iki farklı model uyumlamanın karşılaştırılıp hangisinin istatistiksel olarak daha başarılı bir uyumlama olduğunun belirlenmesi için kullanılan sınamalardan birisidir. F adı, varyans analizinin temellerini atan istatistikçi ve biyolog Ronald A. Fisher a ithafen verilmiştir. Model seçimi için F-testinin temel adımları şöyledir: Karşılaştırılması istenen iki uyumlamanın artık kareler toplamının (residual sum of squares, RSS) hesaplanması Her iki uyumlama işlemine dair serbestlik derecelerinin hesaplanması Kritik olasılık değeri α nın belirlenmesi F değerinin hesaplanması Sonucun belirlenmesi ve yorumlaması

F-Testi F değeri yandaki şekilde hesaplanır. Burada RSS i, ilgili uyumlamanın artık kareler toplamı, p i, ilgili modelde kullanılan parametre sayısı, n ise gözlem sayısıdır. Eğer modellerin parametre sayıları aynı ise F değeri yandaki şekilde hesaplanabilir. Bu hesapta 1 numaralı modelin daha basit model, yani daha az parametre sayısı içeren model olması gerekir. Artık kareler toplamlarının serbestlik derecelerine oranı bir ki-kare dağılımı, kikare dağılımlarının oranları ise bir F dağılımı verir. Böylece hesaplanan F değeri, bir F dağılımı üzerinde kritik bir olasılık değeri (α) ile karşılaştırılabilir bir değer olur.

F-Testi Örneğin, yandaki tabloda birinci sütundaki zaman değerlerine karşılık ikinci sütundaki ölçüm değerleri görülmektedir. Bu veri setine biri üstel (exponential), diğeri bir kuvvet yasası olan (power law) iki model uyumlaması yapılabilir. Bu modellerden hangisinin veriyi daha iyi temsil edebildiğini doğrudan uyumlama eğrilerinden ya da artıklardan anlamamız her zaman mümkün olmaz.

F-Testi Uyumlamanın iyiliğini ölçebilecek istatistiksel yöntemlerin bazıları anlamlı bir seçim yapmaya yeterli olmayabilir.

F-Testi İki modelden hangisinin daha iyi uyumlama sonucu verdiğinin anlaşılması için F- testi uygulanabilir. F-testinde sıfır hipotezi, 1. model (üstel), istatistiksel olarak daha iyi uyumlama yapmıştır olarak seçilebilir. Buna göre F = 16.5310 / 102.6796 = 0.1608 olarak hesaplanır. Her iki model uyumlamanın serbestlik derecesi de df = N m = 10 2 = 8 dir. Serbestlik derecesi her iki model için de 8 olan ve F değeri 0.1608 olan bir F testinde, p değeri 0.9909 olarak hesaplanır. Kritik olasılık değeri α, 0.1, 0.05, 0.01 (%10, %5, %1) gibi değerlerden hangisini alırsa alsın sıfır hipotezi (1. modelin daha iyi olması) reddedilemez. Böylece sıfır hipotezi kabul edilir. Sıfır hipotezinin reddedilmemesi kararının güvenilirliği %99.09 dur.

F-Testi F-testinde sıfır hipotezi, 1. model (üstel), istatistiksel olarak daha iyi uyumlama yapmıştır olarak seçilebilir. F = 0.1608 Her iki model uyumlamanın serbestlik derecesi df = N m = 10 2 = 8 p = 0.9909 http://homepage.divms.uiowa.edu/~mbogn ar/applets/f.html

F-Testi F-testinde sıfır hipotezi, 2. model (kuvvet yasası), istatistiksel olarak daha iyi uyumlama yapmıştır olarak seçilseydi. F = 102.6796/16.5310 F = 6.2113 df = N m = 10 2 = 8 p = 0.00911 olurdu. Kritik olasılık değerimiz 0.01 (%1) dahi olsa sıfır hipotezini reddedebilirdik. http://homepage.divms.uiowa.edu/~mbognar/ applets/f.html

Akaike Bilgi Ölçütü (Akaike Information Criterion) AIC, bir modelin başarısını veren ölçütlerden biridir. Doğrudan bir modelin başarısını verebildiği gibi, farklı modellerin karşılaştırılabilmesini de sağlar. Bir sıfır hipotezi sınaması türünde değerlendirme yapmadığı için bir modelin mutlak doğruluğu ile ilgili bir bilgi vermez. Dolayısıyla ilgilenilen modellerin tamamının veriye iyi uyumlama sağlamaması durumunun göstergesi değildir. AIC değeri küçük olan modelin başarısı daha yüksektir. Burada k, modeled kullanılan parametrelerin sayısıdır. L^ ise modelin doğruluğu durumunda gözlem verisinin olabilirlik fonksiyonudur (likelihood function). Olabilirlik fonksiyonu, bir modelin önerdiği olasılık dağılımına göre tüm verilerin bu model ile oluşabilme olasılıklarının çarpımıdır. AIC ya da bir çok hesapta olabilirlik fonksiyonunun kendisi kullanılabildiği gibi, kolay hesaplanabilirliği sebebiyle logaritması da kullanılmaktadır. Görüldüğü gibi parametre sayısının artması durmunda AIC değeri artar. Yani modelde kullanılan parametre sayısının fazlalığı, modelin gerçek değişimden çok gürültü modellemeye doğru eğilimde bulunacağı kabulu yapılır. Dolayısıyla daha az parametre sayısına sahip (daha basit) modelerin seçilmesi yönünde bir denge sağlamış olur.

Akaike Bilgi Ölçütü (Akaike Information Criterion) Eğer uyumlama yapılmak istenen veri sayısı çok küçük ise AIC daha fazla parametreye sahip olan modelin seçilmesine sebep olur. Bu sebep ile AIC düzeltmesi (AIC correction, AICc) tanımı yapılmıştır. Sağ taraftaki bölümde n, gözlem verisi sayısı, k ise parametre sayısıdır. AIC ya da AICc kullanımı için sınır koşul olarak n/k < 40 kullanılır. Yani gözlem verisi sayısı, modeldeki parametre sayısından en az 40 kat büyük ise AIC kullanılabilir. Bu durumda parametre sayısı fazlalığının etkisi ihmal edilebilecek kadar küçük kalır. Eğer bu oran 40 tan daha az ise AICc kullanılmalıdır. AIC ya da AICc değeri pozitif ya da negatif olabilir. Başarılı model her zaman daha küçük değere sahip olandır. AIC, farklı sayıda veriye sahip uyumlama işlemlerinde kullanılamaz. AIC, bir sıfır hipotezi sınaması olmadığı için sonuçta anlamlılık düzeyi, hipotez redid gibi ifadeler kullanılmamalıdır.

Akaike Bilgi Ölçütü (Akaike Information Criterion) Model uyumlamada AIC hesabı yandaki şekilde yapılabilir. Burada n, gözlem sayısı; RSS, artık kareler toplamı; k, modelde kullanılan parametre sayısıdır. Model seçimi durumunda, Modellerin tamamının AIC değerleri hesaplanır. En düşük AIC değere sahip olan model baz alınarak AIC farkları hesaplanır. Tüm modellerin olabilirlik fonksiyonuna ilişkin aşağıdaki yaklaşım yapılır. Burada her modelin elde veri üzerinden hesaplanabilecek olabilirlik fonksiyonları, AIC farklarının üstel bir ifadesi ile orantılıdır denilmektedir. Akaike ağırlıkları hesaplanır. Bu değer tüm modellerin olabilirlik fonksiyonlarının kullanılan tüm modellerin toplam olabilirliklerine oranıdır.

Akaike Bilgi Ölçütü (Akaike Information Criterion) Örneğin, 3 farklı model için RSS, AICc, Δ i, w i hesapları bulunmaktadır. Sonuç ağırlıklarına göre 1 numaralı modelin, 2 numaralı modele göre 0.6758 / 0.2816 = 2.4 kat daha yüksek olabilirliğe sahip olduğu söylenebilir. Yine 1 numaralı modelin, 3 numaralı modele göre 0.6758 / 0.0427 = 15.8 kat daha yüksek olabilirliğe sahiptir.

Bayes Bilgi Ölçütü (Bayesian Information Criterion) BIC, bir modelin başarısını veren bir ölçüttür. AIC ile yakından ilişkilidir. Ancak ilave parametrelere daha hassastır. Burada n, gözlem sayısı, k, modelde kullanılan parametre sayısı ve L^, modele göre gözlem verilerinin olabilirlik fonksiyonudur. BIC değerinin küçük olduğu modeller veriyi uyumlamada daha başarılıdır denilebilir. Eğri uyumlama işleminde aşağıdaki şekilde kullanılabilir. Burada RSS, artık kareler toplamıdır. Farklı modellerin BIC değerleri arasındaki fark ΔBIC aşağıdaki şekilde yorumlanabilir. 0 < ΔBIC < 2, yüksek BIC değerli modele karşı güçlü bir kanıt yoktur. 2 < ΔBIC < 6, yüksek BIC değerli modele karşı pozitif bir kanıt vardır. 6 < ΔBIC < 10, yüksek BIC değerli modele karşı güçlü bir kanıt vardır. ΔBIC > 10, yüksek BIC değerli modele karşı çok güçlü bir kanıt vardır.

Veriyi Dışlamak! Gözlem verisi içerisinde genel trende uymayan gözlemlerin bulunması her zaman olasıdır. Bu tür verilere aykırılar (outliers) adı verilir. Şu ana kadar gördüğümüz eğri uyumlama yöntemleri, uyumlama test ve karşılaştırma yöntemlerinin tamamı aykırı noktalardan etkilenmektedir. Bu sebep ile aykırı noktaların ayıklanması uygun olabilecektir. Bu işlem için Chauvenet kriteri (Chauvenet s criterion) kullanılabilir. Chauvenet kriteri, normal bir dağılım göstermesi beklenen bir veride, her bir gözlemin ortalama değerden ne kadarlık standart sapma kadar uzaklıkta olduğunun kontrol edilmesine dayanır. Veri setinin ortalama değeri ve standart sapması elde edilir. Aykırı olması muhtemel gözlemlerin ortalamadan kaç standart sapma uzaklıkta olduğu hesaplanır. ABS(x out x mean ) / σ Bu farkın normal dağılımda (ya da ilgili dağılımda) ne olasılıkla elde edilebileceği hesaplanır. Bu olasılık verideki eleman sayısıyla çarpılır. Çarpım sonucu 0.5 ten küçük ise muhtemel aykırı veriden çıkarılıp, kalan verinin ortalaması ve standart sapması tekrar hesaplanır.

Veriyi Dışlamak! Örneğin bir gözlemin sonuçları aşağıdaki gibidir: 9, 10, 10, 10, 11, 50 6 elemanlı bu veri setinin ortalama değeri 16.7, standart sapması 16.34 tür. 50 değeri potansiyel aykırı olarak, ortalamadan 33.3 kadar farklı bir değerdir ve, 33.3 / 16.34 = 2.038 standart sapma kadar ortalamadan ayrılmıştır. Normal dağılımda 2.038 standart sapmaya sahip bir verinin elde edilmesi olasılığı 0.05 tir. Chauvenet kriterine göre 0.05 * 6 = 0.03 tür ve 0.3 < 0.5 olduğundan 50 değeri veriden çıkarılır. Kalan gözlem elemanlarının ortalama sapması 10, standart sapması 0.7 olur. Gözlem verilerinin çıkarılması dikkat edilmesi gereken bir konudur. Gözlemler içerisinde aykırı görünen noktaların, bu ölçüm değerlerine sahip olma durumuna ilişkin bir açıklamanın yapılması, gözlem verilerinin nasıl bir dağılım sergilemesi gerektiğinin iyi biliniyor olması (önceden yapılan deneyler ya da teori ile) ve gözlem verisinde az miktarda elamanın olmaması gerekmektedir. Chauvenet kriteri dışında birçok farklı aykırı nokta ayıklama yöntemleri bulunmaktadır. Yapılan çalışmanın türüne veya ayıklama yöntemlerinin güvenilirliğine göre seçim yapmak gerekebilir.

Kaynaklar Measurements and their Uncertainties, Ifan G. Hughes & Thomas P.A. Hase, Oxford University Press, 2010 Data Reduction and Error Analysis for the Physical Sciences, Philip R. Bevington & D. Keith Robinson, MC Graw Hill, 2003 Görseller; www.stat.uiowa.edu/~mbognar/applets