Korelasyon ve Regresyon
Korelasyon- (lineer korelasyon) Açıklayıcı (Bağımsız) Değişken x çalışma zamanı ayakkabı numarası İki değişken arasındaki ilişkidir. Günlük sigara sayısı SAT puanı boy Yanıt (Bağımlı) Değişken y Kaza sayısı Boy akciğer kapasitesi Başarı puanı İki değişken arasında ne tür bir ilişki vardır ve bu korelasyon anlamlı mıdır? IQ
Dağılım grafiği ve korelasyon çeşidi 60 x = egzersiz süresi y = kaza sayısı 50 40 Kaza 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 egzersiz süresi Negatif Korelasyon x artarken, y azalıyor
GPA(başarı notu) 4.00 3.75 3.50 3.25 3.00 2.75 2.50 2.25 2.00 1.75 1.50 x = SAT puanları y = başarı notu 300 350 400 450 500 550 600 650 700 750 800 SAT matematik puanı Positif Korelasyon x artıyorken, y artıyor
x = boy y = IQ IQ 160 150 140 130 120 110 100 90 80 60 64 68 72 76 80 Boy(inç) lineer korelasyon yok
Korelasyon Katsayısı İki değişken arasındaki lineer ilişkinin büyüklüğü ve yönünü ölçer. r = Σ ( 1 1 X X ).( Y N. S x. S y Y ) r değeri 1 ila 1 arasında değişir. 1 0 1 Eğer r, 1 e yakın ise, kuvvetli negatif korelasyon var. Eğer r, 0 a yakın ise lineer korelasyon yok. Eğer r,1 e yakın ise kuvvetli pozitif korelasyon var. r = -0.97, r = 0.02, kuvvetli ilişkiyi gösterir ama 0.63 için ne kadar kuvvetli olup olmadığı hakkında hipotez testi gerekir
Geçme notu 95 90 85 80 75 70 65 60 55 50 45 40 örnek 0 2 4 6 8 10 12 14 16 devamsızlık X devamsızlık x y 8 78 2 92 5 90 12 58 15 43 9 74 6 81 geçme Notu
n x y 1 8 78 2 2 92 3 5 90 4 12 58 5 15 43 6 9 74 7 6 81 r nin hesabı xy x 2 y 2 624 184 450 696 645 666 486 64 4 25 144 225 81 36 6084 8464 8100 3364 1849 5476 6561 57 516 3751 579 39898 Sonucun yorumu nedir?
Anlamlılık için Hipotez Testi r örneğin korelasyon katsayısıdır. Popülasyonun korelasyon katsayısı (rho) dur. Çift taraflı anlamlılık testi için: (Korelasyon anlamlı değil) Sağ ve sola dayalı (left tail and right tail)durumları pozitif veya negatifliliği test etmede: (Korelasyon anlamlı) r için örnek dağılımında t dağılımı ile birlikte d.f.: n 2 dir Standardize edilmiş test İstatistiği
Anlamlılık Testi Devamsızlıkla geçme notu arasındaki korelasyon katsayısını r = 0.975 dır. toplam yedi kişiye ait sonuç verilmiştir.bu sonucun anlamlılık seviyesini belirleyiniz = 0.01 dir. 1. Boş(null) ve alternatif hipotezi yazınız. 2. Anlamlılık seviyesi: = 0.01 (Korelasyon anlamlı değil) (Korelasyon anlamlı ) 3. Kullanılacak Örnek dağılımını belire. t-dağılımı ve d.f.:5
Reddetme bölgesi t 4.032 0 4.032 Kritik değer ± t 0 4. Kiritik değeri bul. 5. Reddetme bölgesini bul. 6. İstatistiksel değeri bul.
t 0 4.032 4.032 7. Kararınızı verin t = 9.811 reddetme bölgesi içindedir. null hipotez reddedilir. 8. Kararı yorumla Devamsızlık sayısı ile geçme notu arasında anlamlı bir korelasyon-ilişki- vardır.
Lineer Regresyon
Regresyon Çizgisi Anlamlı bir lineer korelasyon bulduktan sonra x ve y arasındaki bu anlamlılığı ifade edecek bir denklem yazılmalıdır. Bu denkleme regresyon çizgisi/eğrisi veya en küçük kare çizgisi -least squares line- denir Bu çizgi için denklem y = mx + b olarak yazılır. buradaki m : çizginin eğimi ve b: y yi- kesim noktasıdır. Regresyon çizgisi: Eğim, m : Y yi -kesme noktası b:
(x i,y i ) = elde edilen verinin bulunduğu noktalar = aynı x değeri için çizgi üzerindeki noktalar = artık( residual), bu değer +,- veya 0 olabilir gelir 260 250 240 230 220 210 200 190 180 1.5 2.0 2.5 3.0 reklam $
n x 1 8 78 2 2 92 3 5 90 4 12 58 5 15 43 6 9 74 7 6 81 57 y xy x 2 y 2 624 184 450 696 645 666 486 64 4 25 144 225 81 36 516 3751 579 6084 8464 8100 3364 1849 5476 6561 39898 x = devamsızlık sayısı y = geçme notu için lineer regresyon denklemini yazınız. m ve b yi hesapla. Regresyon çizgisi: = 3.924x + 105.667
m = 3.924 ve b = 105.667 Regresyon denklemi: Regresyon Çizgisi geçme notu 95 90 85 80 75 70 65 60 55 50 45 40 Dikkat ediniz ki 0 2 4 6 8 10 12 14 16 Devamsızlık sayısı = (8.143, 73.714) çizgi üzerinde.
y değerini tahmin etme Verilen regresyon denkleminden herhangi bir x değeri için y değeri tahmin edilebilir. Geçme notu ile devamsızlık arasındaki regresyon denklemi: = 3.924x + 105.667 Bu denkleme göre aşağıdaki devamsızlıklar için umulan geçme notunu hesaplayınız (a) 3 devamsızlık (b) 12 devamsızlık (a) (b) = 3.924(3) + 105.667 = 93.895 = 3.924(12) + 105.667 = 58.579 Yorumlar verilen değerler arasında anlamlıdır. Mesela 100 devamsızlık için bulunan not değerinin bir anlamı yoktur.
Regresyon ve Korelasyon Ölçümü
Belirleme Katsayısı Belirleme katsayısı, r 2, bağımlı değişken olan y nin ne kadarının -çeşitliliğinin- bağımsız değişken x tarafındani açıklandığını gösterir Açıklanan Varyasyon Toplam Varyasyon Devamsızlıkla geçme notu arasındaki korelasyon katsayısı, r = 0.975 ve belirleme katsayısı ise, r 2 = ( 0.975) 2 = 0.9506 dir. Yorumu: geçme notunun yaklaşık %95 i öğrencilerin okula devamsızlıkları tarafından açıklanabilir veya buna bağlıdır. Geri kalan açıklanamayan %5 ise, örnekleme hatası veya diğer değişkenlere-zekilik,çalışma süresi vs -- bağlıdır.
Standat Hata Tahmini Standart Hata Tahmini, s e, gözlemlenen y i nin tahmin yapılan değer hakkındaki standart sapmasıdır. standart hata tahmininin 4.307 olması demek geçme notunun standart hatasının 4.307olması demektir, yani belli bir devamsızlık için bu tahmini standart hata mevcuttur. Standart tahmini hata ne kadar büyük olursa, o oranda da verilerin yaygınlığı söz konusudur.
Standat Hata Tahmini x y 1 8 78 74.275 13.8756 2 2 92 97.819 33.8608 3 5 90 86.047 15.6262 4 12 58 58.579 0.3352 5 15 43 46.807 14.4932 6 9 74 70.351 13.3152 7 6 81 82.123 1.2611 92.767 Her bir x=4.307 değeri için yi hesapla
Tahmin Aralığı Verilen bir lineer regresyon denklemi ve x 0 ile, x in spesifik değeri ne karşın, y nin tahmini aralığı: İle bulunur Burada: Nokta tahmini: ve E de maximum tahmini hatadır. t-dağılımı ile d.f: n 2 kullanınız
örnek 6 kez devamsızlığı olan bir öğrencinin geçme notunu a %90 güven aralığı için bulunuz? 1. Nokta tahminini bul: Bu x koordinatında regresyon denklemine göre 6 ya karşılık gelen noktadır. (6, 82.123)
Örnek 6 kez devamsızlığı olan bir öğrencinin geçme notunu a %90 güven aralığı için bulunuz? 2. E yi bul, %90 güven aralığında, maximum tahmin hatası 9.438 tür.
örnek 6 kez devamsızlığı olan bir öğrencinin geçme notunu a %90 güven aralığı için bulunuz? 3. Uç noktaları bul. E = 82.123 9.438 = 72.685 + E = 82.123 + 9.438 = 91.561 72.685 < y < 91.561 x = 6 olduğu zaman, %90 güven aralığında değerler 72.685 den 91.586 ye kadar değişmektedir; yani %90 ihtimalle 6 devamsızlığı olan bir öğrencinin geçme notu bu değerler arasındadır.
Çıktı-sonuç Regression Analysis The regression equation is y = 106 3.92x Predictor Coef StDev T P Constant 105.668 3.655 28.91 0.000 x 3.9241 0.4019 9.76 0.000 S = 4.307 R-Sq = 95.0% R-Sq(adj) = 94.0%
Çoklu Regresyon (Multiple Regression)
Daha fazla Açıklayıcı Değişkenler devamsız IQ Başarı Notu 8 2 5 12 15 9 6 115 135 126 110 105 120 125 78 92 90 58 43 74 81 Y, X 1,X 2, X 3.
Çıktı-sonuç Regression Analysis regresyon denklemi B.Notu = 52.7 2.65 devamszılık + 0.357 IQ Y: Başarı notu X1: devamsızlık X2:IQ olsun Y= 52.7 2.65 X 1 + 0.357 X 2 Predictor Coef Constant devamsızlık IQ 52.720 2.652 0.357 StDev T P 86.110 2.111 0.580 0.61 1.26 0.62 0.573 0.277 0.571 S = 4.603 R-Sq = 95.4% R-Sq(adj) = 93.2%
Yorumlama regresyon denklemi Başarı Notu = 52.7 2.65 devamsızlık + 0.357 IQ Diğer değişkenler 0 olduğunda, başarı notu 52.7 dir. Eğer IQ sabit tutulursa, devamsızlıktaki her bir puana karşılık 2.65 puan oranında tahmini başarı notuna katkı yapacaktır. Eğer devamsızlık sabit tutulursa, IQ nun bir puan artması ile tahmin edilen başarı notunda da 0.357 puan orarında artış olacaktır.
Sonuç tahmini Regresyon denklemi: Başarı notu = 52.7 2.65 devamsızlık + 0.357 IQ Verilen regresyon denkleminden devamsızlığı 5 ve IQ 125 olan bir öğrencinin başarı notunu hesaplayınız? Başarı notu = 52.7 2.65 devamsızlık + 0.357 IQ Başarı Notu = 52.7 2.65(5) + 0.357(125) = 80.075 (yaklaşık 80) Verilen regresyon denkleminden devamsızlığı 9 ve IQ 120 olan bir öğrencinin başarı notunu hesaplayınız? Başarı notu = 52.7 2.65 devamsızlık + 0.357 IQ B. Notu = 52.7 2.65(9) + 0.357(120) = 71.69 (yaklaşık 72)