CHAPTER 6 SIMPLE LINEAR REGRESSION

Benzer belgeler
KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

Korelasyon ve Regresyon

İstatistik ve Olasılık

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

DENEYSELVERİLERİN GRAFİĞE AKTARILMASI

BASİT REGRESYON MODELİ

Korelasyon katsayısı (r)

Korelasyon. Korelasyon. Merkezi eğilim ve değişim ölçüleri bir defada sadece bir değişkenin özelliklerini incelememize imkan tanır.

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

Örneklem Dağılımları & Hipotez Testleri Örneklem Dağılımı

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

YILLARI ARASINDA GÜNEY CAROLINA DA OKUL İÇİ ŞİDDET İSTATİSKLERİ ANALİZİ (Bir Önceki Projeden Devam Edilecektir)

Korelasyon ve Regresyon

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

Korelasyon, Korelasyon Türleri ve Regresyon

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH


REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Yatırım Analizi ve Portföy Yönetimi 6. Hafta

GRAFİK ÇİZİMİNDE ÖNEMLİ NOKTALAR

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

DENEY 0. Bölüm 1 - Ölçme ve Hata Hesabı

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

TABLO I: Bağımlı değişken; Tüketim,- bağımsız değişkenler; gelir ve fiyat olmak üzere değişkenlere ait veriler verilmiştir.

Korelasyon ve Regresyon

19. BÖLÜM BİRBİRİYLE İLİŞKİLİ OLAN İKİ DEĞİŞKENDEN BİRİSİNDEKİ DEĞİŞİME GÖRE DİĞERİNİN ALACAĞI DEĞERİ YORDAMA (KESTİRME) UYGULAMA-I

SÜREKLĠ OLASILIK DAĞILIMLARI

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

OLS Klasik Varsayımlar. Çoklu Regresyon. Çoklu Regresyon Modellemesi. Çoklu Regresyon Modeli. Multiple Regression

ÜNİTE. MATEMATİK-1 Yrd.Doç.Dr.Ömer TARAKÇI İÇİNDEKİLER HEDEFLER DOĞRULAR VE PARABOLLER

BUSINESS FORECASTING CHAPTER 3

GRAFİK ÇİZİMİ VE UYGULAMALARI 2

Matris Cebiriyle Çoklu Regresyon Modeli

DOĞRUSAL DENKLEMLER VE KOORDİNAT SİSTEMİ

Koordinat sistemi. Eksenlere paralel doğrular: y eksenine paralel doğrular. Koordinat ekseninde doğrular. Çanta. Kalem. Doğru

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

Ekonometri I VARSAYIMLARI

2. HAFTA DERS NOTLARI İKTİSADİ MATEMATİK MİKRO EKONOMİK YAKLAŞIM. Yazan SAYIN SAN

MATE 211 BİYOİSTATİSTİK DÖNEM SONU SINAVI

1

Dik koordinat sisteminde yatay eksen x ekseni (apsis ekseni), düşey eksen ise y ekseni (ordinat ekseni) dir.

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

= 2 6 Türevsel denkleminin 1) denge değerlerinin bulunuz. 2) Bulmuş olduğunuz dengenin istikrarlı olup olmadığını tespit ediniz.

Gruplanmış serilerde standart sapma hesabı

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları II (19 Nisan 2012)

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

ise, genel bir eğilim (trend) gösteriyorsa bu seriye uygun doğru ya da eğriyi bulmaya çalışırız. Trend orta-uzun dönemde her iniş, çokışı

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir.

MAK 210 SAYISAL ANALİZ

a) Çıkarma işleminin; eksilen ile çıkanın ters işaretlisinin toplamı anlamına geldiğini kavrar.

Parametrik doğru denklemleri 1

MAK 210 SAYISAL ANALİZ

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Bir Normal Dağılım Ortalaması İçin Testler

Parametrik Olmayan Testler. İşaret Testi-The Sign Test Mann-Whiney U Testi Wilcoxon Testi Kruskal-Wallis Testi

2012 LYS MATEMATİK SORU VE ÇÖZÜMLERİ Niyazi Kurtoğlu

ALIŞTIRMA 2 GSYİH. Toplamsal Ayrıştırma Yöntemi

İstatistik ve Olasılık

İÇİNDEKİLER ÖN SÖZ...

Kazanımlar. Z puanları yerine T istatistiğini ne. zaman kullanacağını bilmek. t istatistiği ile hipotez test etmek

İstatistik ve Olasılığa Giriş. İstatistik ve Olasılığa Giriş. Ders 3 Verileri Sayısal Ölçütlerle İfade Etme. Verileri Sayısal Ölçütlerle İfade Etme

Sürekli Rastsal Değişkenler

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Tahminleme Yöntemleri-2

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

İÇİNDEKİLER 1. GİRİŞ...

Nokta ve Aralık Tahmini Merkezi Limit Teoremi Örneklem Dağılımı Hipotez Testlerine Giriş

Basit ve Çoklu Doğrusal Regresyon

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

Deneysel Verilerin Değerlendirilmesi. Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR. Prof. Dr. Murat ELİBOL FİNAL SINAVI

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

ideal Sistem Tester Kullanım Klavuzu

Basit Regresyon Modeli BASİT REGRESYON MODELİ. Basit Regresyon Modeli. Basit Regresyon Modeli: y = β 0 + β 1 x + u

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Prof. Dr. Aydın Yüksel MAN 504T Yön. için Finansal Analiz & Araçları Ders: Risk-Getiri İlişkisi ve Portföy Yönetimi I

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Öğr. Gör. Serkan AKSU

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

1. BÖLÜM Polinomlar BÖLÜM II. Dereceden Denklemler BÖLÜM II. Dereceden Eşitsizlikler BÖLÜM Parabol

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

FAKTÖR ANALİZİ VAHİDE NİLAY KIRTAK

1. İLİŞKİLERİN İNCELENMESİNE YÖNELİK ANALİZLER Sosyal Bilimlerde Nedensel Açıklamalar

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

Diğer sayfaya geçiniz YGS / MAT TEMEL MATEMATİK TESTİ. olduğuna göre, a kaçtır? olduğuna göre, m kaçtır?

4. TAHMİN SONUÇLARININ DEĞERLENDİRİLMESİ Katsayıların Yorumu

Pazarlama Araştırması Grup Projeleri

ANADOLU ÜNİVERSİTESİ REGRESYON KATSAYILARININ GÜVEN ARALIĞI = + REGRESYON KATSAYILARININ GÜVEN ARALIĞI

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Merkezi eğilim ölçüleri ile bir frekans dağılımının merkezi belirlenirken; yayılma ölçüleri ile değişkenliği veya yayılma düzeyini tespit eder.

Transkript:

CHAPTER 6 SIMPLE LINEAR REGRESSION Bu bölümdeki amacımız değişkenler arasındaki ilişkiyi gösteren en uygun eşitliği kurmaktır. Konuya giriş için şu örnekle başlayalım; Diyelim ki Mr. Bump adındaki birisi rastgele seçilmiş 10 hafta için ürettiği sütlerin satış fiyatları ile satış miktarlarını inceliyor ve şu tablo ortaya çıkıyor; 1 Tablo incelenirse Y ve X değişkenleri arasında negative linear relationship vardır. Yani fiyat arttıkça satış düşüyor. Ve aradaki ilişkinin ne derecede olduğunu ölçmek için correlation coefficient hesabı yapıyor sonuç -.86 çıkıyor. Sonucun negatif olması negative linear relationship olduğunun göstergesidir. Çıkan sonuç şunu gösteriyor ki X ve Y arasında kuvvetli bir ters ilişki var. Sonra aklına şu soru takılıyor: Miktardaki azalışın fiyattaki artışa olan etkisi nedir? Bu sorunun çözümü için yapılması gereken aşağıdaki diagrama uygun doğrusal bir line çizmektir. Bunun için de veriler incelenerek en uygun equation hazırlanıp line çizilir.

Line ın eğimi(b 1 ), fiyattaki her yükseliş için miktardaki ortalama düşüşü gösterir. Daha sonra Mr. Bump diagramdaki noktalara en uygun şekilde göz kararı bir line çizdi. Başka biri olsa belki biraz daha farklı bir line çizebilirdi. Göz kararı olarak her kim ne kadar uygun bir line çizmeye çalışırsa çalışsın en uygun yöntem fitted regression equation oluşturarak çizim yapmaktır. Bu eşitlikle ortaya çıkan line, diagramdaki noktalara en yakın olacak olan line dır. Bu equation ın denklemi ise şu şekildedir; Y = b 0 + b 1 X b 0, doğrunun y eksenini kestiği noktadır. Yani X in 0 olduğu yerde y nin aldığı değerdir. b 1, ise eğimdir. Bu da X teki bir birimlik artışın Y de meydana getirdiği değişim miktarını gösterir. 2 Yukarıdaki grafikteki noktaların line a olan uzaklıklarının kareleri toplamı diğer göz kararı çizilmiş line lara göre en düşük olanıdır. Yani gerçek değerlere en çok yaklaşan line budur. Nokta ile line arasındaki mesafe residual olarak adlandırılıyor. Bunun bir diğer ismi de error dur. Grafikteki noktalar orijinal datadan alınmış gerçek değerlerdir. Bizim bu noktalara göre equation kullanarak oluşturduğumuz line ise tablodaki değerlere en yakın sonucu veren equation ın line ıdır. Mesela; x=1 için y= 32,14 14,54 = 17,60 tır. Gerçek değer ise grafikten anlaşılacağı gibi 17 ye yakın bir sayıyı işaret etmektedir.

Observation = Fit + Residual Y = Y + (Y Y ) Gerçek değere ulaşmak için tahminlediğimiz değerler (Y ) ile residual ları (Y Y ) toplarız. Şu iki formül birbirine karıştırılmamalıdır; Y = b 0 + b 1 X Y = b 0 + b 1 X + ε STANDARD ERROR OF THE ESTIMATE Şimdi de Mr. Bump datadaki noktaların line a olan uzunluğunu ölçmek istiyor. Bunun için standard error hesabı yapılmalıdır. Regresyon analizinde standar error hesabı yapıldığında standard error un küçük bir sayı çıkması regresyon grafiğindeki noktaların grafikteki line a çok yakın olduğunu gösterir. Eğer standard error büyük bir sayı çıktıysa bu noktalar line dan uzaktır. Örneğin örnekteki standart sapma 2.72 dir. Standart sapma fazla olduğu için denilebilir ki satışlarda meydana gelen değişiklikler fiyat ile açıklanamaz. Eğer standart sapma düşük olsaydı diyebilirdik ki satışlardaki değişimi fiyat ile açıklayabiliriz. Yani aşağıdaki tabloya bakacak olursak mesela en başta 10 galon süt üretildiğinde fiyat 1.30 iken 5. sırada yine 10 galon süt üretilmiş fakat fiyat 1.60. Öte yandan 7. sırada 5 galon süt üretilmiş tablodaki verilere göre fiyat artması gerekirken 1.60 da kalmış.?????????????????????????????????????????? 3 FORECASTING Y Fitted regression line ı Y değerini bulmak için kullanırız. Fiyat şu kadar olursa satışlar şu şekilde olur gibisinden... Mesela Mr. Bump $1,63 satış fiyatından satılacak süt miktarını hesaplamak istiyor; Y = 32.14 14.54(1.63) = 8.440 Daha sonra fark ediyor ki bulduğu değer yani line üzerindeki değer ile grafikteki gerçek değer (nokta ile gösterilen değer) aynı değil. İkisi

arasındaki fark residual dır yani error dur. Grafikteki line 10 tane sample temel alınarak hesaplandı. Eğer farklı bir 10 sample seçilseydi daha farklı bir line ortaya çıkacaktı. Böylece yerine 1.63 koyarak bulduğumuz Y değeri daha farklı olacaktı. Fitted regression equation kullanılarak hesaplanan bir noktanın belirsizliğinin iki sebebi vardır; - Noktaların regresyon çizgisi etrafında dağılım göstermesinden kaynaklanan belirsizlik - Örneklem(sample=datadaki 10 örneklem) regression çizgisinin popülasyon(datadaki tüm değerler) regresyon çizgisine yakın dağılım göstermesinden kaynaklanan yani ikisinin aynı olmamasından kaynaklanan belirsizlik.??????????????????????????????? Y nin aralık tahmini bu iki belirsizliği göz önünde bulundurularak yapılmaktadır. 4 Kitaptaki formüle göre hesaplanan prediction interval (1.73, 15.15) dir. Yani bu da 1,730 ile 15,550 galona tekabül etmektedir. Rastgele seçilmiş 10 hafta için bu kadar geniş bir tahmin aralığının olması Y nin hesaplanması için bir değer ifade etmemektedir. Tahmin aralığı ne kadar dar olursa işimize o kadar çok yarayacaktır. Öte yandan Mr. Bump X=3.00 için hesaplama yapmak isterse bu değer tabloda olmayan yüksek bir değerdir. Böyle bir data collect edilmediği için yapılan herhangi bir tahminleme büyük bir olasılıkla doğru sonucu vermeyecektir. (highly suspect) Ayrıca X in büyük bir değer almasıyla tahminlemenin standart sapması da genişleyecektir buna nispeten (X X ) 2 de geniş olacaktır. Sütün $3 olduğundaki durumu tahminlemek için Mr. Bump straight line modelinin geçerli olduğunu varsaymalıdır. Fakat şunu da bilmelidir ki elinde bu varsayımı destekleyecek kesin bir delil de yoktur.

DECOMPOSITION OF VARIANCE Decomposition of Variability; SST = SSR + SSE SST= Total sum of square SSR= Sum of square regression SSE= Sum of square error Y deki varyasyonun bir kısmı SSR ile ölçülür ve SSR ile ölçülemeyen diğer kısım da SSE ile ölçülür. İkisinin toplamı da toplam varyasyonu yani SST yi verir. Bu decomposition of variability olarak adlandırılır ve bunlara karşılık gelen değerler analysis of variance olarak bilinen ANOVA tablosunda gösterilir. (bkz. sf. 231) Şimdi örneğe dönecek olursak, Mr. Bump ın analizi 10 haftalık satış verileri bilgisi ile başladı. Eğer bundan başka bilgi olmasaydı(fiyatlar belli olmasaydı) Mr. Bump ortalama haftalık ne kadar süt satıldığını ölçmek için sample average yani bu 10 verinin ortalamasını alıp bu ortalamayı kullanacaktı (11.2). Sadece satış miktarlarının verildiği bu durumda residuals yani error larımız Y Y, yani actual (gerçek) değerler ile ortalama(11.2) arasındaki fark olacaktı. ve SST ise bu değerlerin kareleri toplamı olacaktı. 5 Diğer yandan Mr. Bump ın X e dair bilgileri de var. X, gallon başı fiyatı gösteriyor. Hatırlarsak en başta correlation coefficient ı 0.86 olarak bulmuştuk. Bu bilgi ile o, Y değerlerindeki farkların yani varyasyonun bir kısmını açıklayabilir. Aşağıdaki iki tablodan birinde X değişkenin yani fiyat değişkeninin olmadığı yani sadece Y değerlerinin ortalamasının kullanılması sonucu elde ettiğimiz residul lar var diğerinde ise X değerlerinden faydalanılarak elde edilmiş residual lar var. Bu iki tabloyu karşılaştıracak olursak görüldüğü gibi X değerlerinden faydalanılarak elde edilen residuallar mutlak değerce diğerine göre daha küçüktür. Yani sağdaki tablonun seçilmesi hatayı azaltıyor.

X in hangi oranda yardımcı olduğunu anlamak için ise decomposition of variability bize yardımcı oluyor. Tablodaki verilerden faydalanarak; SST = (Y Y ) 2 = 233.60 SSE = (Y Y ) 2 = 59.41 SSR = SST SSE 6 olduğundan; SSR = (Y Y ) 2 = 233.60 59.41 = 174.19 dur. ve decomposition of variablity de; SST = SSR + SSE 233.60 = 174.19 + 59.41 Explained Variation Unexplained Variation Yüzdelik dilimi bulmak için gerekli oranlamayı yaparsak; SSR SST = 174.19 233.60 =.75 buluruz. Bu da şunu gösteriyor ki (1-.75 =.25) unexplained dir. Yani %75 lik kısım Y nin X ile olan ilişkisine bakılarak açıklanabilir. Sonuç olarak da X in bilinmesiyle Y için yaptığımız tahminlemeler Y lerin ortalamasının kullanılmasıyla elde edilenden daha iyi bir sonuç ortaya çıkarmıştır.

COEFFICIENT OF DETERMINATION (R 2 ) Regresyon doğrusunun gözlemlere ne denli uyduğunu ortaya koyan göstergelerden biri determinasyon (belirlilik) katsayısıdır. Bu katsayı aynı zamanda, bağımlı değişkendeki değişmelerin yüzde kaçının bağımsız değişken ya da değişkenler tarafından açıklandığını gösterir. Determinasyon katsayısı 0 ile 1 arasında pozitif bir değer olup, korelasyonun karesidir. Determinasyon katsayısından hareketle regresyon modelinin bir bütün olarak geçerliliğini de test etmek mümkündür. Bir regresyon denkleminin başarısı açıklanabilen bağımlı değişkenin büyüklüğüne diğer bir ifadeyle determinasyon katsayısının büyüklüğü ile yakından ilgilidir. Bütün gözlemler(grafikteki noktalar) regresyon doğrusu üzerinde olursa R 2 = 1 olur. Regresyon doğrusu, gözlemleri temsil etmekten uzaklaştıkça R 2 de küçülür. R 2 değeri bağımlı değişkenin ne kadarının bağımsız değişkenler tarafından açıklandığını gösterirken 1- R 2 değeri ise modelde yer almayan diğer bağımsız değişkenlerce açıklanan kısmı vermektedir. Bu bilgileri aldıktan sonra tekrar örneğimize dönecek olursak Mr. Bump coefficient of determination hesabı yapıyor; 7 R 2 = SSR SST = 174.19 233.60 =.746 bu da şunu gösteriyor ki süt satışlarındaki değişimin %75 i X teki yani fiyattaki farklılıklarla açıklanabilir. Fakat %25 lik kısım fiyat ile açıklanamaz. Bu kısım ancak bu örnekte bahsedilmemiş faktörlerce açıklanabilir. Mesela sütün kalitesi, yapılan reklamlar ya da sütün yerine tercih edilebilecek ürünlerin varlığı örnek olarak verilebilir. Şunu belirtmekte de fayda var; Coefficient of determination = (Coefficient of correlation) 2 R 2 = (r) 2. 746 = (.863) 2 Peki regresyon analizinde neden bu ikisi ayrı ayrı tanımlanıyor? Çünkü her ikisi de bize farklı bilgiler veriyor. Correlation coefficient, değişkenler arasındaki ilişkinin gücü ve yönü hakkında bilgi verirken coefficient of

determination Y ile X arasındaki ilişkinin gücünü correlation coefficient tan farklı bir şekilde ölçüyor. R 2, X teki farklılıklardan faydalanarak Y deki değişimi ölçüyor ve bu yöntem Y ile birden fazla X arasındaki yani Y ile farklı farklı değişkenler arasındaki ilişkinin ölçümünde de kullanılabilir. Soldaki grafik R 2 = 0 olan durumdur. Yani Y deki değişimler X ile açıklanamaz ama sağdaki grafikte tüm noktalar line ın tam üzerinde bu da R 2 = 1 olduğunu gösterir ve Y deki tüm değişimlerin X değerleri ile açıklanabileceğinin kanıtıdır. 8 Regresyon analiz tablosunda p value nun 0.05 ten küçük olması modelin significant olduğunun göstergesidir. Öyleyse H 0 : β 1 = 0 hipotezi reddedilir. Bu hipotez X ve Y arasında lineer bir ilişki olmadığını iddia etmektedir....