CHAPTER 6 SIMPLE LINEAR REGRESSION Bu bölümdeki amacımız değişkenler arasındaki ilişkiyi gösteren en uygun eşitliği kurmaktır. Konuya giriş için şu örnekle başlayalım; Diyelim ki Mr. Bump adındaki birisi rastgele seçilmiş 10 hafta için ürettiği sütlerin satış fiyatları ile satış miktarlarını inceliyor ve şu tablo ortaya çıkıyor; 1 Tablo incelenirse Y ve X değişkenleri arasında negative linear relationship vardır. Yani fiyat arttıkça satış düşüyor. Ve aradaki ilişkinin ne derecede olduğunu ölçmek için correlation coefficient hesabı yapıyor sonuç -.86 çıkıyor. Sonucun negatif olması negative linear relationship olduğunun göstergesidir. Çıkan sonuç şunu gösteriyor ki X ve Y arasında kuvvetli bir ters ilişki var. Sonra aklına şu soru takılıyor: Miktardaki azalışın fiyattaki artışa olan etkisi nedir? Bu sorunun çözümü için yapılması gereken aşağıdaki diagrama uygun doğrusal bir line çizmektir. Bunun için de veriler incelenerek en uygun equation hazırlanıp line çizilir.
Line ın eğimi(b 1 ), fiyattaki her yükseliş için miktardaki ortalama düşüşü gösterir. Daha sonra Mr. Bump diagramdaki noktalara en uygun şekilde göz kararı bir line çizdi. Başka biri olsa belki biraz daha farklı bir line çizebilirdi. Göz kararı olarak her kim ne kadar uygun bir line çizmeye çalışırsa çalışsın en uygun yöntem fitted regression equation oluşturarak çizim yapmaktır. Bu eşitlikle ortaya çıkan line, diagramdaki noktalara en yakın olacak olan line dır. Bu equation ın denklemi ise şu şekildedir; Y = b 0 + b 1 X b 0, doğrunun y eksenini kestiği noktadır. Yani X in 0 olduğu yerde y nin aldığı değerdir. b 1, ise eğimdir. Bu da X teki bir birimlik artışın Y de meydana getirdiği değişim miktarını gösterir. 2 Yukarıdaki grafikteki noktaların line a olan uzaklıklarının kareleri toplamı diğer göz kararı çizilmiş line lara göre en düşük olanıdır. Yani gerçek değerlere en çok yaklaşan line budur. Nokta ile line arasındaki mesafe residual olarak adlandırılıyor. Bunun bir diğer ismi de error dur. Grafikteki noktalar orijinal datadan alınmış gerçek değerlerdir. Bizim bu noktalara göre equation kullanarak oluşturduğumuz line ise tablodaki değerlere en yakın sonucu veren equation ın line ıdır. Mesela; x=1 için y= 32,14 14,54 = 17,60 tır. Gerçek değer ise grafikten anlaşılacağı gibi 17 ye yakın bir sayıyı işaret etmektedir.
Observation = Fit + Residual Y = Y + (Y Y ) Gerçek değere ulaşmak için tahminlediğimiz değerler (Y ) ile residual ları (Y Y ) toplarız. Şu iki formül birbirine karıştırılmamalıdır; Y = b 0 + b 1 X Y = b 0 + b 1 X + ε STANDARD ERROR OF THE ESTIMATE Şimdi de Mr. Bump datadaki noktaların line a olan uzunluğunu ölçmek istiyor. Bunun için standard error hesabı yapılmalıdır. Regresyon analizinde standar error hesabı yapıldığında standard error un küçük bir sayı çıkması regresyon grafiğindeki noktaların grafikteki line a çok yakın olduğunu gösterir. Eğer standard error büyük bir sayı çıktıysa bu noktalar line dan uzaktır. Örneğin örnekteki standart sapma 2.72 dir. Standart sapma fazla olduğu için denilebilir ki satışlarda meydana gelen değişiklikler fiyat ile açıklanamaz. Eğer standart sapma düşük olsaydı diyebilirdik ki satışlardaki değişimi fiyat ile açıklayabiliriz. Yani aşağıdaki tabloya bakacak olursak mesela en başta 10 galon süt üretildiğinde fiyat 1.30 iken 5. sırada yine 10 galon süt üretilmiş fakat fiyat 1.60. Öte yandan 7. sırada 5 galon süt üretilmiş tablodaki verilere göre fiyat artması gerekirken 1.60 da kalmış.?????????????????????????????????????????? 3 FORECASTING Y Fitted regression line ı Y değerini bulmak için kullanırız. Fiyat şu kadar olursa satışlar şu şekilde olur gibisinden... Mesela Mr. Bump $1,63 satış fiyatından satılacak süt miktarını hesaplamak istiyor; Y = 32.14 14.54(1.63) = 8.440 Daha sonra fark ediyor ki bulduğu değer yani line üzerindeki değer ile grafikteki gerçek değer (nokta ile gösterilen değer) aynı değil. İkisi
arasındaki fark residual dır yani error dur. Grafikteki line 10 tane sample temel alınarak hesaplandı. Eğer farklı bir 10 sample seçilseydi daha farklı bir line ortaya çıkacaktı. Böylece yerine 1.63 koyarak bulduğumuz Y değeri daha farklı olacaktı. Fitted regression equation kullanılarak hesaplanan bir noktanın belirsizliğinin iki sebebi vardır; - Noktaların regresyon çizgisi etrafında dağılım göstermesinden kaynaklanan belirsizlik - Örneklem(sample=datadaki 10 örneklem) regression çizgisinin popülasyon(datadaki tüm değerler) regresyon çizgisine yakın dağılım göstermesinden kaynaklanan yani ikisinin aynı olmamasından kaynaklanan belirsizlik.??????????????????????????????? Y nin aralık tahmini bu iki belirsizliği göz önünde bulundurularak yapılmaktadır. 4 Kitaptaki formüle göre hesaplanan prediction interval (1.73, 15.15) dir. Yani bu da 1,730 ile 15,550 galona tekabül etmektedir. Rastgele seçilmiş 10 hafta için bu kadar geniş bir tahmin aralığının olması Y nin hesaplanması için bir değer ifade etmemektedir. Tahmin aralığı ne kadar dar olursa işimize o kadar çok yarayacaktır. Öte yandan Mr. Bump X=3.00 için hesaplama yapmak isterse bu değer tabloda olmayan yüksek bir değerdir. Böyle bir data collect edilmediği için yapılan herhangi bir tahminleme büyük bir olasılıkla doğru sonucu vermeyecektir. (highly suspect) Ayrıca X in büyük bir değer almasıyla tahminlemenin standart sapması da genişleyecektir buna nispeten (X X ) 2 de geniş olacaktır. Sütün $3 olduğundaki durumu tahminlemek için Mr. Bump straight line modelinin geçerli olduğunu varsaymalıdır. Fakat şunu da bilmelidir ki elinde bu varsayımı destekleyecek kesin bir delil de yoktur.
DECOMPOSITION OF VARIANCE Decomposition of Variability; SST = SSR + SSE SST= Total sum of square SSR= Sum of square regression SSE= Sum of square error Y deki varyasyonun bir kısmı SSR ile ölçülür ve SSR ile ölçülemeyen diğer kısım da SSE ile ölçülür. İkisinin toplamı da toplam varyasyonu yani SST yi verir. Bu decomposition of variability olarak adlandırılır ve bunlara karşılık gelen değerler analysis of variance olarak bilinen ANOVA tablosunda gösterilir. (bkz. sf. 231) Şimdi örneğe dönecek olursak, Mr. Bump ın analizi 10 haftalık satış verileri bilgisi ile başladı. Eğer bundan başka bilgi olmasaydı(fiyatlar belli olmasaydı) Mr. Bump ortalama haftalık ne kadar süt satıldığını ölçmek için sample average yani bu 10 verinin ortalamasını alıp bu ortalamayı kullanacaktı (11.2). Sadece satış miktarlarının verildiği bu durumda residuals yani error larımız Y Y, yani actual (gerçek) değerler ile ortalama(11.2) arasındaki fark olacaktı. ve SST ise bu değerlerin kareleri toplamı olacaktı. 5 Diğer yandan Mr. Bump ın X e dair bilgileri de var. X, gallon başı fiyatı gösteriyor. Hatırlarsak en başta correlation coefficient ı 0.86 olarak bulmuştuk. Bu bilgi ile o, Y değerlerindeki farkların yani varyasyonun bir kısmını açıklayabilir. Aşağıdaki iki tablodan birinde X değişkenin yani fiyat değişkeninin olmadığı yani sadece Y değerlerinin ortalamasının kullanılması sonucu elde ettiğimiz residul lar var diğerinde ise X değerlerinden faydalanılarak elde edilmiş residual lar var. Bu iki tabloyu karşılaştıracak olursak görüldüğü gibi X değerlerinden faydalanılarak elde edilen residuallar mutlak değerce diğerine göre daha küçüktür. Yani sağdaki tablonun seçilmesi hatayı azaltıyor.
X in hangi oranda yardımcı olduğunu anlamak için ise decomposition of variability bize yardımcı oluyor. Tablodaki verilerden faydalanarak; SST = (Y Y ) 2 = 233.60 SSE = (Y Y ) 2 = 59.41 SSR = SST SSE 6 olduğundan; SSR = (Y Y ) 2 = 233.60 59.41 = 174.19 dur. ve decomposition of variablity de; SST = SSR + SSE 233.60 = 174.19 + 59.41 Explained Variation Unexplained Variation Yüzdelik dilimi bulmak için gerekli oranlamayı yaparsak; SSR SST = 174.19 233.60 =.75 buluruz. Bu da şunu gösteriyor ki (1-.75 =.25) unexplained dir. Yani %75 lik kısım Y nin X ile olan ilişkisine bakılarak açıklanabilir. Sonuç olarak da X in bilinmesiyle Y için yaptığımız tahminlemeler Y lerin ortalamasının kullanılmasıyla elde edilenden daha iyi bir sonuç ortaya çıkarmıştır.
COEFFICIENT OF DETERMINATION (R 2 ) Regresyon doğrusunun gözlemlere ne denli uyduğunu ortaya koyan göstergelerden biri determinasyon (belirlilik) katsayısıdır. Bu katsayı aynı zamanda, bağımlı değişkendeki değişmelerin yüzde kaçının bağımsız değişken ya da değişkenler tarafından açıklandığını gösterir. Determinasyon katsayısı 0 ile 1 arasında pozitif bir değer olup, korelasyonun karesidir. Determinasyon katsayısından hareketle regresyon modelinin bir bütün olarak geçerliliğini de test etmek mümkündür. Bir regresyon denkleminin başarısı açıklanabilen bağımlı değişkenin büyüklüğüne diğer bir ifadeyle determinasyon katsayısının büyüklüğü ile yakından ilgilidir. Bütün gözlemler(grafikteki noktalar) regresyon doğrusu üzerinde olursa R 2 = 1 olur. Regresyon doğrusu, gözlemleri temsil etmekten uzaklaştıkça R 2 de küçülür. R 2 değeri bağımlı değişkenin ne kadarının bağımsız değişkenler tarafından açıklandığını gösterirken 1- R 2 değeri ise modelde yer almayan diğer bağımsız değişkenlerce açıklanan kısmı vermektedir. Bu bilgileri aldıktan sonra tekrar örneğimize dönecek olursak Mr. Bump coefficient of determination hesabı yapıyor; 7 R 2 = SSR SST = 174.19 233.60 =.746 bu da şunu gösteriyor ki süt satışlarındaki değişimin %75 i X teki yani fiyattaki farklılıklarla açıklanabilir. Fakat %25 lik kısım fiyat ile açıklanamaz. Bu kısım ancak bu örnekte bahsedilmemiş faktörlerce açıklanabilir. Mesela sütün kalitesi, yapılan reklamlar ya da sütün yerine tercih edilebilecek ürünlerin varlığı örnek olarak verilebilir. Şunu belirtmekte de fayda var; Coefficient of determination = (Coefficient of correlation) 2 R 2 = (r) 2. 746 = (.863) 2 Peki regresyon analizinde neden bu ikisi ayrı ayrı tanımlanıyor? Çünkü her ikisi de bize farklı bilgiler veriyor. Correlation coefficient, değişkenler arasındaki ilişkinin gücü ve yönü hakkında bilgi verirken coefficient of
determination Y ile X arasındaki ilişkinin gücünü correlation coefficient tan farklı bir şekilde ölçüyor. R 2, X teki farklılıklardan faydalanarak Y deki değişimi ölçüyor ve bu yöntem Y ile birden fazla X arasındaki yani Y ile farklı farklı değişkenler arasındaki ilişkinin ölçümünde de kullanılabilir. Soldaki grafik R 2 = 0 olan durumdur. Yani Y deki değişimler X ile açıklanamaz ama sağdaki grafikte tüm noktalar line ın tam üzerinde bu da R 2 = 1 olduğunu gösterir ve Y deki tüm değişimlerin X değerleri ile açıklanabileceğinin kanıtıdır. 8 Regresyon analiz tablosunda p value nun 0.05 ten küçük olması modelin significant olduğunun göstergesidir. Öyleyse H 0 : β 1 = 0 hipotezi reddedilir. Bu hipotez X ve Y arasında lineer bir ilişki olmadığını iddia etmektedir....