KORELASYON VE TEKLİ REGRESYON ANALİZİ-EN KÜÇÜK KARELER YÖNTEMİ 1 KORELASYON ANALİZİ İki değişken arasındaki doğrusal ilişkinin gücünü(derecesini) ve yönünü belirlemek için hesaplanan bir sayıdır. Belirli bir birimi yoktur. İki değişken arsında doğrusal bir ilişki yok ise korelasyon katsayısı r0 bulunur. r>0 ise iki değişken arasında aynı yönde bir ilişki, r<0 ise de değişkenler arasında ters yönlü bir ilişki söz konusudur. Her zaman için -1 r 1eşitsizliği geçerlidir. 1
.. r-1 veya r1 çıkması iki değişken arasında tam bir doğrusal ilişkinin var olması demektir. Değişkenler arasındaki dağılım grafiği çizildiğinde oluşan doğrunun eğimi (+) ise (sağa yatık doğru) pozitif korelasyon, eğim (-) ise (sola yatık doğru) negatif korelasyon söz konusudur. 3 Bazı Tanımlar: Bağımsız değişken:başka bir değişkeni tahmin etmek için kullanılan değişken çeşididir. Bağımlı değişken:bağımsız değişkenin değişimlerinden etkilenen ve onun verileri ile tahmin edilmeye çalışılan değişkendir. Bağımlı ve bağımsız değişkenlerin birbirlerine göre aldıkları değerleri gösteren grafik dağılım grafiğidir. Bu grafiklerde genel olarak x ekseninde bağımsız değişken ve y ekseninde bağımlı değişken değerleri yer alır. 4
r -1 r 1 r 0 5 Korelasyon katsayısının hesaplanması: X:bağımsız değişken, Y:bağımlı değişken n:yapılan gözlem sayısı olmak üzere X ile Y arasındaki korelasyon katsayısı; 6 3
Örneğin; Aşağıdaki tabloda bir firma için satılan ürün sayısı ve yapılan telefon görüşmelerinin sayısı verilmiştir. Buna göre mevcut olan ilişkinin yönünü ve gücünü belirleyip dağılım grafiğini çizin. 7 Çözüm: X:telefonla yapılan arama sayısı Y: satılan ürün sayısı olmak üzere; 8 4
Örneğe ait dağılım grafiği; r katsayının pozitif çıkması bu iki değişken arasında aynı yönlü bir ilişki olduğunu gösterir. Bununla birlikte görülüyor ki r 1 e çok yakın bir değer olarak bulunmuştur. Bu da bizim için ilişkinin oldukça güçlü olduğunu söylemektedir. 9 r nin öneminin test edilmesi: Görüldüğü gibi biz korelasyon katsayısını popülasyon alınmış belli hacimdeki örneklem için hesapladık. Fakat bu hesaplanan değer tüm popülasyon için uygun mudur yoksa değil midir? Bu sorunun cevabını r için yapacağımız hipotez testi ile bulmaya çalışalım: (n10<30 olduğu için t testi uygulanacaktır. ρ: popülasyonun korelasyonunu gösterecektir.) 10 5
Popülasyonun korelasyonu sıfır olabilir mi??? H 0 : ρ0 ve H A : ρ 0 r t n r 0.94 10 0.94 6.835 1 1 df:10-8 ve α0.05 anlamlılık düzeyi için ilgili kritik değer(tablo değeri) t *.306 olarak bulunur. O halde t > t * olduğu için H 0 hipotezi reddedilir. Yani popülasyonun korelasyonu sıfır değildir. 11 TEKLİ REGRESYON MODELİ İki ya da daha fazla değişken arasında bir ilişkinin bululup bulunmadığını test eden ve bunu doğrusal veya eğrisel olarak ifade eden denklemlere regresyon modeli denir. Fakat biz burada doğrusal olarak ifade edilen regresyon modelleri üzerinden işlem yapacağız. İçerisinde yalnızca bir tane bağımsız değişkenile buna bağlı tahmin edilen bağımlı değişken bulunduran denklemlere tekli regresyon modeli denir. 1 6
Lineer regresyon denklemi formu: X i :bağımsız (açıklayıcı) değişken Y i :bağımlı (açıklanan) değişken e i :hata payı a,b:regresyon katsayıları n:gözlem sayısı Y i a+bx i +e i (i1,,,n) olmak üzere 13 Regresyon denklemine ait varsayımlar: İstatistiksel rasgele örneklem ve popülasyonu en iyi temsil eden örneklem kullanılmaktadır. Herbir x değerine karşılık bir y değeri muhakkak vardır. Bağımlı değişken içerisindeki ortalaması 0 ve varyansı σ (otokorelasyonsuz) olan normal dağılım sergilemektedir. Bağımsız değişkenler hatasız olarak verileri yansıtmaktadır. Denkleme hata teriminin eklenmiş olması denklemde dışlanan değişkenlerin (denklemde bulunmayan bağımsız değişkenler) var olduğu olasılığını göstermektedir. 14 7
Tahmin Kurulan regresyon modeli ilgilenilen problemle ilgili örnek olarak alınmış gözlem değerleri kullanılarak hesaplanmaya çalışılır. Bu nedenle kurduğumuz modeldeki değerler tahmini değerler olacaktır. Tahmin sonrası açıklanmaya çalışılan değerler ile bunu açıklayan değerler şapka () ile yazılırsa regresyon tahmin modeli elde edilmiş olur. Tahmin modeli kurulmasının ardından tahmin edilen katsayıların güvenilirliği (ana kütleyi ne kadar temsil ettiği) test edilmelidir. Çünkü, bu katsayılar bağımsız değişkenin bağımlı değişkeni ne oranda açıkladığını gösterir. 15 Regresyon tahmin modeli Kurulan regresyon modeli Ya+bX+e ise bu modele ait tahmin modeli: Y a + b X 16 8
EKK Tahmin edilen katsayıların ve değişkenlerin hesaplanması için geliştirilen ve gerçek katsayılara en yakın sonuçları veren yöntemlerden bir tanesi en küçük kareler yöntemidir. Bir diğer ifade ile regresyon modelindeki hata terimini minimum yapan yöntem EKK yöntemidir. 17 EKK yöntemi sayesinde gerçek Y değerleri ile tahmin edilen Y değerleri arasındaki farkın kareleri toplamını minimum yapılır. yani; Σ(Y-Y) minimum 18 9
Regresyon katsayılarının hesaplanması: a denklem için parametre olarak da bilinmekte olup sabit değer diye nitelendirilmektedir. Bu değer X bağımsız değişkeni sıfır değerini aldığı zaman bağımlı değişken olan Y nin alacağı değeri göstermektedir. Ayrıca regresyon doğrusu çizilirken doğrunun y ekseni üzerindeki başlangıç noktasıdır. a Y b X X X n Y Y n 19.. b diğer tüm faktörler sabit iken bağımsız değişkendeki değişimin bağımlı değişkeni ne kadar değiştireceğini gösterir. Ayrıca regresyon doğrusunun eğimi olan parametre olarak da bilinmektedir. 1.YOL.YOL 0 10
.. Katsayıların hesaplanmasından sonra, olarak gösterilen regresyon tahmini değerleri, regresyon denkleminde tahmin katsayıları yerine koyularak ve hata terimi göz ardı edilerek bulunan değerlerdir. Bulunan Y tahmin değerleri Y değerlerinden çıkarılırsa o veriye ait hata terimi bulunmuş olur. Tahmin modeline ait katsayılar bulunup regresyon doğru denklemi yazıldıktan sonra x-y koordinat eksenlerinde doğru denklemi çizilebilir. Y 1 Örnek: Korelasyon konusu içerisindeki örneğimiz için ilgili regresyon modelini bulup doğruyu çizelim: veriler; 11
Katsayılar için gerekli değerler; Bir tablo ile her bir gözlem için 3 b n( Katsayıları hesaplarsak; XY ) ( X )( Y ) n( X ) ( X ) 10(9661) (199)(408) 10(4681) (199).1387 a 40,8,1387(19,9) 1,706 b Y X 4 1
Y 1,7601 +,1387 5 Regresyon katsayılarının tahmininde standart hatanın belirlenmesi: Regresyon doğrusu etrafında gözlenen değerlerinin nasıl/ ne kadar yayıldığını gözlemlemeye yarayan sayıdır. Tahmin için standart hata s yx olarak gösterilir. Katsayıları hesaplayarak kurduğumuz modelin güvenilirliği bir başka deyişle bu modelin popülasyonu ne kadar gerçekçi olarak temsil ettiği örnekleme ait standart hatanın hesaplanması ile ölçülür. Standart hatalar bulunan katsayı değerlerinden küçük olmalıdır. s ile gösterilirler. 6 13
Katsayılara ait standart hataların hesaplanması: Birinci katsayı olan sabit değere (a) ilişkin standart hata; s( a var( ) a ) a) X ( X X var( n ) 7.. İkinci katsayı olan eğime(b) ait standart hata olmak üzere ; s e n s( b var( ) b ) var( b) s ( X X ) 8 14
Tahminin standart hatası Y bağlı X olmak üzere s YX ; syx n ) Y ( Y Gözlem sayısının çok fazla olduğu durumlarda standart hata şu şekilde de hesaplanabilir: syx ( ) ( Y a Y b n XY ) 9 Az önce belirlediğimiz regresyon modeli için standart hatayı hesaplayalım: Örnek: Y 1,7601 +,1387 30 15
Bulunan değerler syx n Formülünde yerleştirilirse standart hata şu şekilde bulunur: ) Y ( Y 31 Modelin belirlilik katsayısının hesaplanması: Kurduğumuz regresyon modelindeki gözlem değerlerinin modele uyumluluğunu belirlilik katsayısı ile ölçebiliriz. Belirlilik katsayısı R ile gösterilir. R bağımlı değişkendeki değişimin % kaçının bağımsız değişken tarafından açıklandığını gösterir. O halde R 1 e yaklaştıkça modelin uygunluğu artar. (0 R 1) R ise modelde dışlanan değişken yoktur. 3 16
33 Güven aralığının hesaplanması: Güven aralığı hesaplanırken gözlem sayısı dikkate alınarak uygun olan test seçilir. Test seçiminde eğer gözlem sayısı n<30 ise t testi, n 30 ise z testi kullanılmalıdır. Güven aralığı hesabı için ilgili teste ait tablo değerleri daha önceki konularımızda işlendiği gibi bulunup kullanılacaktır. Güven aralığı bir eşitsizlik şeklinde bulunacaktır. Buna göre eşitsizliğin ilk kısmı (küçük değer) alt sınır, ikinci kısım (büyük değer) ise üst sınırdır. Belirli bir anlamlılık seviyesi (α) üzerinden güven aralığı tespit edilir. 34 17
Regresyon tahmin modeli için ilgili güven aralığı; t testi df:n- serbestlik düzeyine/risk derecesine göre bulunmalıdır. t yerine gözlem sayısı n 30 olduğunda z değeri gelmelidir İfadenin pay kısmında yer alan X değeri soru içerisinde seçilmiş olan özel bir değerdir. Y 1 ± t( s YX ) + n ( X X ) ( X ) X n 35 Örnek: Aynı örneğimiz için 5 kez telefonla arama yapan satış uzmanlarının sattığı ürün sayısının güven aralığını %95 güven aralığında hesaplayalım. X5 dfn-10-8 α0.05 için t tablo.306 s YX 8.41 Y 1,7601 +,1387 Y 51,7074 36 18
(44.5516, 58.863) modele ilişkin güven aralığı olarak bulunur. 37 19