MAK 210 SAYISAL ANALİZ BÖLÜM 6- İSTATİSTİK VE REGRESYON ANALİZİ Doç. Dr. Ali Rıza YILDIZ 1
İSTATİSTİK VE REGRESYON ANALİZİ Bütün noktalardan geçen bir denklem bulmak yerine noktaları temsil eden, yani noktalardaki gidişatı veya eğilimi gösterecek şekilde bir denklem bulma işlemine istatistikte regresyon analizi denir. Aşağıdaki şekilde interpolasyon ve regresyon arasındaki fark görülmektedir. y y İnterpolasyon x Regresyon x 2
Verilen noktaları temsil eden en iyi eğriyi bulma işleminde yaygın olarak kullanılan yöntem en küçük kareler yöntemidir. Bu yöntemde verilen noktalardaki ölçüm hatalarının normal dağılım gösterdiği kabul edilir. En küçük kareler yöntemi, oluşacak hataların kareleri toplamı minimum olacak şekilde bir eğri denklemi bulma esasına dayanır. Bu şekilde bulunacak bir denklem en az hatalı ve en muhtemel değeri verecek bir eğri denklemi olacaktır. Verilen noktalara eğri uydurma başlıca dört değişik şekilde yapılabilir : Lineer regresyon Nonlineer regresyon ve lineerleştirme Polinomial regresyon Çok değişkenli regresyon 3
TEMEL İSTATİSTİK Keyfi olarak değişen bir büyüklükteki değişimin eğilimini tayin etmek ve bu büyüklüğün verilen bir aralıkta kalma ihtimalini tahmin etme istatistiğin temel konularıdır. Medyan : Ölçüm değerleri küçükten büyüğe veya tersi yönde sıralandığında ortadaki ölçüm değerine denir. Ölçüm adedi çift ise ortadaki iki ölçüm değerinin ortalaması medyan olarak anılır. Aritmetik ortalama : Ölçüm değerlerinin toplamının ölçüm sayısına bölümü olup aşağıdaki gibi gösterilecektir. 4
y = 1 n n i=1 y i = y 1 + y 2 + y 3 + + y n /n Harmonik ortalama : Ölçülen değerlerin terslerinin toplamını içeren bu ortalama y h = n n i=1 1 y i = n 1 y + 1 1 y + 1 2 y + + 1 3 y n şeklinde hesaplanır. 5
Geometrik ortalama : Toplam yerine çarpımları içeren ve n y g = y i 1 n n = y1. y2. y3 yn i=1 olarak hesaplanan bir ortalamadır. Standart sapma : Ölçüm değerlerinin ortalama değer etrafındaki yayılımını gösterir. σ = S n 1 n S = y i y 2 i=1 6
Varyans: Verilen datanın ortalama etrafındaki dağılımını göstermek üzere kullanılan bir başka tanım standart sapmanın karesi olan varyans tanımıdır : n σ 2 = y i y 2 i=1 n 1 7
Lineer regresyon analizi REGRESYON ANALİZİ y a 1 = n x iy i x i y i n x 2 i x 2 i a 0 = y a 1 x y r = a 0 + a 1 x x i e i x x = n x i n n y = y i n Değerlerin bir doğru ile temsili i=1 i=1 8
İstatistiki analiz ve hata İstatistikte ölçüm değerlerinin ortalama değerden sapması standart sapma olarak adlandırılmıştı (Şekil1.a). y y σ σ Şekil1.a Ortalama değerden sapma x Şekil1.b En iyi doğrudan sapma x 9
Standart sapmaya benzer şekilde, bulunan regresyon eğrisinden datanın sapması tahmindeki standart hata olarak ifade edilir ve σ r = S r n 2 şeklinde tanımlanır. S ve S r arasındaki fark datayı ortalama bir değer yerine bir eğriyle temsil etmekte gerçeğe ne kadar yaklaşıldığını gösterir (Şekil1.b). Ancak bu fark yerine boyutsuzlaştırılmış hali daha sık kullanılır ve korelasyon katsayısı diye anılır. r 2 = S S r S y 10
S r = 0 ise (r = 1) regresyon analizi ile elde edilen doğru veya eğri denklemi datayı tam temsil ediyor yani verilen noktalardan geçiyor demektir. S r = S ise (r = 0) doğru veya eğri denklemi elde etmekle datayı temsilde herhangi bir düzelme olmamış demektir. Yukarıdaki şekilde görüldüğü gibi verilen data bulunan doğru civarında kümelenmiş olup data dar bir band içerisinde kalmaktadır. Dolayısıyla bulunan doğrunun ölçüm değerlerini iyi temsil ettiği söylenebilir. 11
Örnek 6.1: Aşağıdaki belli x değerlerine karşılık y ölçüm değerleri verildiğine göre bir regresyon doğrusunu bulunuz. Korelasyon katsayısını hesaplayarak sonucu yorumlayınız. x 1 2 3 4 5 6 7 y 0.5 2.5 2.0 4.0 3.5 6.0 5.5 Çözüm: aşağıda verilmiştir. Katsayıların hesabı için gerekli sayısal değerler tablo halinde 12
i x i y i x i y i x i 2 1 1 0.5 0.5 1 2 2 2.5 5.0 4 3 3 2.0 6.0 9 4 4 4.0 16.0 16 5 5 3.5 17.5 25 6 6 6.0 36.0 36 7 7 5.5 38.5 49 n(7) 28 24 119.5 140 13
Bu tabloya göre ortalama değerler ve katsayılar x = 28 7 = 4, y = 24 7 = 3.428 a 1 = 7 119.5 28(24) 7 140 28 2 = 0.8393, ve a 0 = 3.428 0.8393x4 = 0.0714 şeklinde hesaplanır. Buna göre regresyon doğrusu elde edilir. Korelasyon katsayısı için y r = 0.0714 + 0.8393x S = y i y 2 = 22.7143 14
S r = e i 2 = 2.991 e i = y ri y i r 2 = S S r S = 22.714 2.991 22.714 = 0.868 r = 0.93 değerleri bulunur. Korelasyon katsayısı yüksek olduğundan bulunan doğru ile iyi bir temsil söz konusu olduğu söylenebilir. 15
Nonlineer regresyon ve lineerleştirme Verilen değerler doğrusal bir dağılım göstermiyorsa, noktaları temsil edecek bir eğri denklemi bulunmaya çalışılır. Bu amaçla kullanılabilecek nonlineer fonksiyonlar, daha ziyade üstel fonksiyon, kuvvet fonksiyonu, ters fonksiyon veya polinomlardır. Bunlardan ilk üçü lineerleştirilerek işlem basitçe lineer regresyon analizine ingirgenebilir. Öncelikli olarak bu tür fonksiyonlar ve lineerleştirilmeleri ele alınacak daha sonra polinomial regresyona geçilecektir. 16
a) Üstel fonksiyon ve lineerleştirme y y lny y r = a 1 e b 1x a 0 y r = a 0 + b 1 x x Üstel fonksiyonun lineerleştirilmesi x y r = a 1 e b 1x ln y r = ln a 1 + b 1 x ln y r = y r ve ln a 1 = a 0 tanımlarıyla y r = a 0 + b 1 x lineer denklem elde edilir. 17
b) Kuvvet fonksiyonu ve lineerleştirme y y logy y r = a 1 x b 1 x a 0 y r = a 0 + b 1 x log x Kuvvet fonksiyonun lineerleştirilmesi y r = a 1 x b 1 log y r = log a 1 + b 1 log x log y r = y r ve log a 1 = a 0 ve log x = x tanımlarıyla y r = a 0 + b 1 x lineer denklem elde edilir. 18
c) Ters fonksiyon ve lineerleştirme y y 1 y r = y r y r = a 1x b 1 + x a 0 y r = a 0 + b 1 x x x Ters fonksiyonun lineerleştirilmesi y r = a 1x b 1 + x 1 y r = b 1 a 1 x + 1 a 1 1 y r = y r, b 1 a 1 = b 0, 1 a 1 = a 0 ve 1 x = x tanımlarıyla y r = a 0 + b 1 x lineer denklem elde edilir. 19
Örnek 6.2: (0,1),(1,2) ve (2,6) noktaları verildiğine göre bu değerlere uygun üstel bir eğri denklemi bulunuz. Çözüm: Verilen değerlerden hareketle üstel fonksiyon ve lineerleştirilmesine ait gerekli parametreler hesaplanarak aşağıda tablo halinde verilmiştir. x i y i y i x i y i x i 2 0 1 0 0 0 1 2 0.693 0.693 1 2 6 1.792 3.584 4 3 2.4847 4.277 5 20
y r = a 1 e b 1x y r = a 0 + b 1 x b 1 = n x iy i x i y i n x 2 i x 2 i = 3 4.277 3(2.4847) 3 5 9 = 0.896 ortalama değerler x i = 1 ve y i = 0.828 ile a 0 = y b 1 x = 0.06776 katsayısı bulunur. Buna göre lineer denklem y r = 0.06776 + 0.896x olur. Üstel fonksiyonu elde etmek için ln a 1 = a 0 tanımından ters dönüşümle a 1 = e a 0 = 0.934 ve buna göre y r = 0.934e 0.896 üstel fonksiyonu elde edilir. 21
Polinomial regresyon analizi Verilen n adet datayı temsil etmek üzere m. dereceden (m < n) bir polinom y r = a 0 + a 1 x + a 2 x 2 + + a m x m bulunabilir. Bu denkleme ait katsayıların bulunmasında en küçük kareler yöntemi kullanılacaktır. Hataların kareleri toplamı olan n S r = (y i a 0 a 1 x i a 2 x i 2 a m x i m ) 2 i=1 İfadesinin minimum olması için her katsayıya göre türevinin sıfır olması şartından, 22
S r a 0 = 0 a 0 n + a 1 x i + a 2 x i 2 + + a m x i m = y i S r a 1 = 0 a 0 x i + a 1 x i 2 + a 2 x i 3 + + a m x i m+1 = x i y i S r a 2 = 0 a 0 x i 2 + a 1 x i 3 + a 2 x i 4 + + a m x i m+2 = x i 2 y i.... S r a m = 0 a 0 x i m + a 1 x i m+1 + a 2 x i m+2 + + a m x i 2m = x i m y i veya aşağıdaki gibi matris formunda yazılabilir : 23
n x i x i 2 x i m y i x i x i 2 x i 3 2 3 4 x i x i x i. m m+1 m+2 x i x i x i x i m+1 x i m+2 x i 2m a 0 a 1 a 2 a m = x i y i x 2 i y i x m i y i Buradaki m + 1 lineer denklem çözülürek, m + 1 bilinmeyen (a 0, a 1,, a m ) katsayılar elde edilir. Ayrıca, Tahminin standart hatası: σ r = S r n (m+1) 24
S = y i y 2 Korelasyon katsayısı : r 2 = S S r S ifadelerinden bulunabilir. Örnek 6.3: Aşağıdaki noktaları temsil eden 2. dereceden bir polinom bulunuz. x i 0 1 2 3 4 5 y i 2.1 7.7 13.6 27.2 40.9 61.1 25
Çözüm: Problemde 6 nokta verilmiş olduğuna göre n = 6, m = 2 dir. Polinomun katsayılarını hesaplayacağımız denklemler için gerekli hesaplamalar ; x i = 15 x i 4 = 979 y i = 152.6 x i y i = 585.6 x i 2 = 55 x i 2 y i = 2488.8 x i 3 = 225 x = 2.5 y = 25.433 26
ve bu değerler ile lineer denklem sistemi; 6a 0 + 15a 1 + 55a 2 = 152.6 15a 0 + 55a 1 + 225a 2 = 585.6 55a 0 + 225a 1 + 979a 2 = 2489.8 olur. Bu denklem sistemi uygun bir yöntemle çözülürse aranan katsayılar a 0 = 2.4786 a 1 = 2.3593 a 2 = 1.8607 olarak elde edilir. Buna göre regresyon polinomu y r = 2.4786 + 2.3593x + 1.8607x 2 bulunur. Hata durumuna bakılırsa 27
σ r = S r n (m + 1) = 3.7466 6 3 = 1.12 r 2 = 2513.39 3.7466 2513.4 r = 0.99928 = 0.9985 olarak hesaplanır ki bulunan bu yüksek korelasyon katsayısı nedeniyle polinomun verilen datayı iyi temsil ettiği söylenebilir. 28
Örnek 6.4: SAE 10W numaralı yağın değişik sıcaklıklarda ölçülen viskozitesi aşağıdaki tabloda verilmiştir. Viskozitenin (μ) sıcaklık (T) ile değişimini veren μ = ae b T formunda bir denklem bulunuz. T( C) -20 20 60 100 μ(pa. s) 4.0 0.1 0.018 0.005 Çözüm: Verilen denklemi lineerleştirmek mümkündür. Her tarafın logaritmasını alarak ve yeni parametreler tanımlayarak b T μ = ae lnμ = lna + b T 29
y = a 0 + bx y = lnμ a 0 = lna x = 1 T Bu dönüşümde x in sonsuz olmaması için mutlak sıcaklıklar kullanılabilir. Buna göre gerekli y ve x değerleri için aşağıdaki tablo oluşturulabilir. Bu değerlere göre katsayılar T( C) μ y = lnμ x = 1 T xy x 2 253 4 1.38629 0.00395 0.00548 1.56E-05 293 0.1-2.30259 0.00341-0.00786 1.16E-05 333 0.018-4.01738 0.00300-0.01206 9.02E-06 373 0.005-5.29832 0.00268-0.0142 7.19E-06 = -10.232 0.01305-0.02865 4.35E-05 30
b = n x iy i x i y i n x i 2 x i 2 = 4 0.02865 ( 10.232)(0.01305) 4 4.35x10 5 0.01305 2 = 5119 a 0 = y bx = 10.232 5119 0.01305 4 4 = 19.259 olarak elde edilir. Aranan denklemin lineer formu y = 19.259 + 5119x ve ters dönüşümle a 0 = lna 19.259 = lna a = 4.32x10 9 b T μ = ae μ üstel ifade elde edilir. = 4.32x10 9 5119 T e 31