İSTATİSTİK-II Korelasyon ve Regresyon 1 Korelasyon ve Regresyon Genel Bakış Korelasyon Regresyon Belirleme katsayısı Varyans analizi Kestirimler için aralık tahminlemesi 2
Genel Bakış İkili veriler aralarında bir ilişki var mıdır? varsa bu ilişki bir eşitlik ile temsil edilebilir mi? bu eşitliğin kestirimler (öngörümler) için kullanılması 3 Korelasyon 4
Tanım Korelasyon bir değişkenin değeri değişirken diğer bir değişken bununla doğrusal ilişkili olarak değişiyorsa korelasyon vardır denebilir. 5 Varsayımlar 1. (x,y) ikili verilerden oluşan örnek bir şans örneğidir. 2. x ve y lerin dağılışı normaldir. 6
Tanım Saçılma diyagramı yatay eksen x, dikey eksen y olmak üzere, (x,y) ikili örnek verilerinin işaretlendiği bir grafiktir. Her bir (x,y) ikilisi tek bir noktadır. 7 Örnek Bir firma bünyesindeki satış personeli sayısı ile satış gelirleri arasındaki ilişkiyi bilmek istemektedir. Yıllar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Satış Personeli Sayısı (x) 15 18 24 22 25 29 30 32 35 38 Satış Gelirleri (yüz bin $) (y) 1,35 1,63 2,33 2,41 2,63 2,93 3,41 3,26 3,63 4,15 8
İkili Verilerin Saçılma Diyagramı 4,5 Scatterplot of satış geliri vs personel sayısı 4,0 3,5 satış geliri 3,0 2,5 2,0 1,5 1,0 15 20 25 30 personel sayısı 35 40 9 Pozitif Korelasyon y y y (a) Pozitif x (b) Güçlü pozitif x (c) Mükemmel pozitif x 10
Negatif Korelasyon y y y (d) Negatif x (e) Güçlü negatif x (f) Mükemmel negatif x 11 y y x (g) Korelasyon yok (h) Doğrusal olmayan güçlü ilişki x 12
Tanım Korelasyon Katsayısı r Bir örnekteki x ve y ikili değerleri arasındaki doğrusal ilişkinin gücünü ölçmektedir. r = nσxy - (Σx)(Σy) n(σx 2 ) - (Σx) 2 n(σy 2 ) - (Σy) 2 13 Korelasyon Katsayısı r nin Özellikleri 1. -1 r 1 2. Mükemmel pozitif doğrusal ilişki olduğunda r = 1 olur. 3. Mükemmel negatif doğrusal ilişki olduğunda r = -1 olur. 4. Doğrusal ilişki yok ise r = 0 olur. 14
Korelasyon ile ilgili hatalar 1. Nedensellik: Korelasyon değişkenler arasındaki sebep sonuç ilişkilerini açıklamaz. 2. Doğrusallık: x ile y arasında anlamlı bir korelasyon olmadığı halde, aralarında farklı şekilde bir ilişki olabilir. (Bakınız izleyen slayt) 15 Korelasyon ile ilgili hatalar 250 200 150 y 100 50 0 0 1 2 3 4 5 6 7 8 x 16
Örnek Verileri İçin Korelasyon Hesaplamaları Yıllar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Toplamlar Satış Personeli Sayısı (x) 15 18 24 22 25 29 30 32 35 38 268 Satış Gelirleri (yüz bin $) (y) 1,35 1,63 2,33 2,41 2,63 2,93 3,41 3,26 3,63 4,15 27,73 x 2 225 324 576 484 625 841 900 1024 1225 1444 7668 y 2 1,8225 2,6569 5,4289 5,8081 6,9169 8,5849 11,6281 10,6276 13,1769 17,2225 83,8733 xy 20,25 29,34 55,92 53,02 65,75 84,97 102,3 104,32 127,05 157,7 800,62 17 Örnek Verileri İçin Korelasyon Hesaplamaları r = nσxy - (Σx)(Σy) n(σx 2 ) - (Σx) 2 n(σy 2 ) - (Σy) 2 r = (10)(800,62) - (268)(27,73) (10)(7668) - (268) 2 (10)(83,8733) - (27,73) 2 r = 0,987 Güçlü pozitif korelasyon 18
Anakütle Korelasyon Katsayısının Testi ρ = Anakütle korelasyon katsayısı H 0 : ρ = 0 (anlamlı bir korelasyon yoktur) H 1 : ρ 0 (anlamlı bir korelasyon vardır) 19 Test İstatistiği t Test istatistiği: t = r 1 - r 2 n -2 Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. 20
Ret Bölgeleri 21 Anakütle Korelasyon Katsayısının Testi ρ = Anakütle korelasyon katsayısı H 0 : ρ = 0 (satış personeli sayısı ile satış gelirleri arasında anlamlı bir korelasyon yoktur) H 1 : ρ 0 (satış personeli sayısı ile satış gelirleri arasında anlamlı bir korelasyon vardır) 22
Test istatistiği: Test İstatistiği t t = r 1 - r 2 n -2 0,987 = = 17,39 1 0,987 2 10-2 Kritik değer serbestlik derecesi = n - 2 = 10 2 = 8, α = 0,05 için t 0,025, 8 = 2,31 < 17,39 Karar: H 0 ret. Korelasyon anlamlıdır. 23 Regresyon x bağımsız değişken (açıklayıcı değişken) y bağımlı değişken (cevap = yanıt değişkeni) y = b 0 + b 1 x+ e Basit doğrusal regresyon modeli b 1 = eğim b 0 = kesen 24
Regresyon Regresyon Eşitliği Verilen bir ikili veriler topluluğu için regresyon eşitliği, y ^ = b 0 + b 1 x iki değişken arasındaki ilişkiyi tanımlamaktadır. b 1 = eğim b 0 = kesen Regresyon Doğrusu Regresyon eşitliğinin grafiğidir. 25 Regresyon Doğrusu 4,5 Scatterplot of satış geliri vs personel sayısı 4,0 3,5 satış geliri 3,0 2,5 2,0 1,5 1,0 15 20 25 30 personel sayısı 35 40 26
Notasyon Anakütle Parametresi Örnek istatistiği Regresyon eşitliğinde kesen β 0 b 0 Regresyon eşitliğinin eğimi β 1 b 1 ^ Regresyon modeli ve eşitliği y = β 0 + β 1 x + ε y = b 0 + b 1 x 27 Artıklar ve En Küçük Kareler Yöntemi Artıklar e = (y - ^y) En Küçük Kareler Yöntemi Σe 2 yi minimum yapan b 0 ve b 1 değerlerinin bulunmasıdır. 28
β 0 and β 1 için En Küçük Kareler Tahminleyicileri b 0 = (Σy) (Σx2 ) - (Σx) (Σxy) n(σx 2 ) - (Σx) 2 b 1 = n(σxy) - (Σx) (Σy) n(σx 2 ) - (Σx) 2 29 Önce b 1 bulunursa, ardından b 0 = y - b 1 x 30
Satış geliri için regresyon eşitliğinin tahminlenmesi n(σxy) - (Σx) (Σy) b 1 = n(σx 2 ) - (Σx) 2 b 1 = 10(800,62) - (268) (27,73) 10(7668) - (268) 2 b 1 = 0,118 b 0 = y - b 1 x = 2,773 (0,118)(26,8) = 0,398 31 Kestirimler (Öngörümler) Verilen bir x değeri için y nin değeri ne olur?.. Eğer anlamlı bir korelasyon varsa, en iyi öngörülen y değeri, x değerinin regresyon eşitliğinde yerine konulmasıyla bulunur. Önemli Not: Regresyon doğrusu yalnızca tahminlemede kullanılan x uzayı içinde geçerlidir. Mevcut x lerden uzak bir noktada öngörümleme yapılmamalıdır. 32
30 satış personeli çalıştığında satış gelirinin kestirilmiş değeri nedir? ^ y = - 0.398 + 0.118 (30) ^ y = 3.1516, 315160 $ 33 Toplam Değişkenlik, Açıklanan Değişkenlik ve Açıklanamayan Değişkenlik 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 y Toplam değişkenlik (y - y) y ^ = 3 + 2x (5, 19) (5, 13) (5, 9) 0 1 2 3 4 5 6 7 8 9 y = 9 Açıklanamayan değişkenlik (y - y) ^ Açıklanan değişkenlik (y ^ - y) x 34
(toplam değişkenlik) = (açıklanan değişkenlik) + (açıklanamayan değişkenlik) ^ (y - y) = (y - y) + (y - y) ^ (toplam değişkenlik) = (açıklanan değişkenlik) + (açıklanamayan değişkenlik) Σ (y - y) 2 = Σ (y ^ - y) 2 ^ + Σ (y - y) 2 (Genel kareler toplamı) = (regresyon kareler toplamı) + (artık kareler toplamı) 35 Tanım Belirleme Katsayısı y deki değişkenliğin ne kadarının regresyon doğrusu tarafından açıklanabildiğini söyler. r 2 = Regresyon kareler toplamı Genel kareler toplamı r 2 = Σ (y ^ - y) 2 Σ (y - y) 2 = RKT GKT 36
r 2 = Σ (y ^ - y) 2 Σ (y - y) 2 = b 12 (Σ x 2 (Σx) 2 /n) Σ y 2 (Σy) 2 /n 0,118 2 (7668 (268) 2 /10) r 2 = = %97,4 83,873 (27,73) 2 /10 y deki değişmelerin %97,4 ü regresyon doğrusu ile açıklanabilmektedir. 37 Varyans Analizi Tablosu (VAT) Değişkenlik Kaynağı Regresyon Artık Kareler Toplamları (KT) RKT = b 1 2 (Σ x 2 (Σx) 2 /n) Artık Kareler Toplamı AKT = GKT - RKT n - 2 Serbestlik Derecesi 1 Kareler Ortalaması (KO) Regresyon KO = RKO = RKT / 1 F-Oranı RKO Artık KO = F = AKO = AKT / (n 2) AKO = S 2 Toplam (Genel) Genel Kareler Toplamı n - 1 GKT = Σ y 2 (Σy) 2 /n 38
Hata Varyansının Tahmini s 2 = ^ Σ (y - y)2 =Artık Kareler n -2 Ortalaması Tahminin Standart Hatası s = Σ (y - ^y) 2 n -2 39 F - Testi H 0 : β 1 = β 2 =... = β k = 0 (Model anlamsızdır) H 1 : en az bir i için β i 0 (Model anlamlıdır) 40
F Testi (Basit Doğrusal Regresyon İçin) H 0 : β 1 = 0 (Model anlamsızdır) H 1 : β 1 0 (Model anlamlıdır) Test İstatistiği = F oranı Ret Bölgesi = F > F α, 1, (n 2) ise H 0 RET. 41 Varyans Analizi Tablosu (VAT) (Satış Gelirleri Örneği) Değişkenlik Kaynağı Regresyon Kareler Toplamları (KT) RKT = b 2 1 (Σ x 2 (Σx) 2 /n) = 0,118 2 (7668 (268) 2 /10) = 6,7982 Serbestlik Derecesi 1 Kareler Ortalaması (KO) Regresyon KO = RKO = RKT / 1 = 6,7982 / 1 = 6,7982 F-Oranı RKO F = AKO Artık Artık Kareler Toplamı AKT = GKT RKT = 6,9780-6,7982 = 0,1798 n 2 = 10 2 = 8 Artık KO = AKO = AKT / (n 2) = 0,1798 / 8 = 0,0225 6,7982 F = 0,0225 = 302,41 GKT = Σ y 2 (Σy) 2 /n Toplam (Genel) = 83,873 (27,73) 2 /10 = 6,9780 n 1 = 10 1 = 9 42
F Testi (Satış Gelirleri Örneği İçin) H 0 : β 1 = 0 (Model anlamsızdır) H 1 : β 1 0 (Model anlamlıdır) Test İstatistiği = F oranı = 302,41 Karar = F = 302,41 > F 0,05, 1, 8 = 5,32 H 0 RET. 43 Anakütle Regresyon Katsayısılarının Testi β 1 = Anakütle regresyon katsayısı (X 1 için) H 0 : β 1 = 0 (β 1 anlamsızdır) H 1 : β 1 0 (β 1 anlamlıdır) 44
Test İstatistiği t Test istatistiği: t = b 1 S b 1 S b 1 = b 1 in standart hatasıdır. S b 1= S (Σx 2 (Σx) 2 /n) 45 Kritik değerler serbestlik derecesi = n -2 olan tablo değerleri dikkate alınarak karar verilir. t > t α/2, n 2 ise H 0 RET. 46
Anakütle Regresyon Katsayısılarının Testi (Satış Gelirleri Örneği) β 1 = Anakütle regresyon katsayısı (X 1 için) H 0 : β 1 = 0 (β 1 anlamsızdır) H 1 : β 1 0 (β 1 anlamlıdır) 47 Test İstatistiği t Test istatistiği: t = b 1 S b 1 = 0,118 0,006804 = 17,39 S b 1 = b 1 in standart hatasıdır. S b 1= S (Σx 2 (Σx) 2 /n) = 0,1499 =0,006804 (7668 (268) 2 /10) 48
Kritik değerler serbestlik derecesi = n -2 olan tablo değerleri dikkate alınarak karar verilir. α = 0,05 olsun. 17,39 > t α/2, n 2 = t 0,025, 8 = 2,306 H 0 RET. β 1 anlamlıdır. Basit doğrusal regresyonda t 2 = F olmaktadır. 49 Anakütle Regresyon Katsayısılarının Testi β 0 = Anakütle regresyon modelinde sabit terim H 0 : β 0 = 0 (β 0 anlamsızdır) H 1 : β 0 0 (β 0 anlamlıdır) 50
Test İstatistiği t Test istatistiği: t = b 0 S b 0 S b 0 = b 0 in standart hatasıdır. S b 0= S Σx 2 n(σx 2 (Σx) 2 /n) 51 Kritik değerler serbestlik derecesi = n -2 olan tablo değerleri dikkate alınarak karar verilir. t > t α/2, n 2 ise H 0 RET. 52
Anakütle Regresyon Katsayısılarının Testi (Satış Gelirleri Örneği) β 0 = Anakütle regresyon modelindeki sabit terim H 0 : β 0 = 0 (β 0 anlamsızdır) H 1 : β 0 0 (β 0 anlamlıdır) 53 Test istatistiği: t = S b 1= b 0 S b 0 S Σx 2 Test İstatistiği t = - 0,398 = - 2,11 0,1884 (0,1499) (7668) = n(σx 2 (Σx) 2 /n) (10)(7668 (268) 2 /10) =0,1884 54
Kritik değerler serbestlik derecesi = n -2 olan tablo değerleri dikkate alınarak karar verilir. α = 0,05 olsun. - 2,11 < t α/2, n 2 = t 0,025, 8 = 2,306 H 0 REDDEDİLEMEZ. β 0 anlamsızdır. 55 E(y) Değeri İçin Kestirim Aralığı ^y - E < E(y) < y ^ + E Burada E = t α/2,n - 2 s 1 n + n(x 0 -x) 2 n(σx 2 ) - (Σx) 2 x 0, x in verilen bir değeridir. Karekök içindeki ifade ile S nin çarpımı ise x 0 daki y ^değeri için standart hatadır. Standart hata en düşük değerini x 0 =xolduğunda alır. 56
E(y) Değeri İçin Kestirim Aralığı x 0 = 30 personel için satışların beklenen değeri %95 güven ile hangi aralıkta gerçekleşir? 3.1516 - E < E(y) < 3.1516 + E E= (2,306)(0,1499) 1 + (10)(30-26,8) 2 10 (10)(7668) - (268) 2 E= (2,306)(0,01815) = 0,04186 3,1097 < E(y) < 3,1935 57