Appendix C: İstatistiksel Çıkarsama

Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. edition, Thomson Learning Appendix C: İstatistiksel Çıkarsama Doç. Dr. Hüseyin Taştan 1 1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul. Email: tastan@yildiz.edu.tr 1

Anakütle (Population) Anakütle ilgilenilen belli bir büyüklüğe ilişkin eksiksiz bilgi kümesi olarak tanımlanır. Anakütle tüketiciler, firmalar, şehirler, ülkeler gibi birimlere ilişkin iyi tanımlı ve eksiksiz sayısal bilgi içerir İstatistiksel çıkarsamada ilk adım anakütlenin tanımlanmasıdır. Anakütlenin elde edilmesi genellikle yapılabilir olmadığından, bunun bir alt kümesi olan bir örneklemden hareketle çıkarsama (tahmin, hipotez testi vs.) yapılabilir. Örneğin bir ülkede yaşayan tüm iktisadi bireylerin ücreteğitim bilgisinin elde edilmesi mümkün değildir. Fazladan bir yıl eğitimin ücretler üzerindeki etkisi (return to education), örneklem bilgisinden hareketle tahmin edilebilir. Bu tahmin bir nokta tahmini (örneğin %6) ya da aralık tahmini (örneğin %4 ile %8.3 arası) olabilir.

Örnekleme (Sampling) İlgilendiğimiz r.d. Y olsun. Anakütle dağılımı biliniyor olsun ve oyf f(y;θ) ile gösterilsin. Anakütle dağılımı biliniyor ancak θ parametresi bilinmiyor. Farklı θ değerleri farklı dağılımlar anlamına geldiğinden θ yı tahmin etmekle ilgileniyoruz. İlgili populasyondan örneklemler çekerek θ hakkında bilgi sahibi olabiliriz. Buna örnekleme denir. En basit örnekleme yöntemi rassal örnekleme (random sampling) dir. Rassal örneklem (r.ö.): birbirinden bağımsız olarak populasyon dağılımı f(y;θ) dan çekilmiş örneklem değerleri kümesi: {Y 1,Y 2,...,Y n } Bir r.ö. İçindeki her bir Y i bağımsız (independent) ve türdeş (identical) dağılır (iid) Örneklem çekildiğinde elimizde bir sayılar kümesi olur. Bunu {y 1,y 2,...,y n } ile göstereceğiz.

Tahmin Tahmin edici (estimator): Bir örneklem olanaklı değerlerinden hareketle bilinmeyen anakütle parametresi θ için bir değer veren kural (ya da fonksiyon) Tahmin (estimate) (ya da tahmin edilen değer): Belli bir örneklem gerçekleşmesinden hareketle bulunan değer: Tahmin edici W nun dağılımına örnekleme dağılımı (sampling distribution) denir.

Tahmin edicilerin özellikleri: Sapmasızlık (Unbiasedness): Bir tahmin edici (t.e.)nin örnekleme dağılımındaki ortalaması populasyon parametresine eşitse o t.e. Sapmasızdır (unbiased): Sapma: Sapmasızlık elde ettiğimiz bir tahminin doğru değere eşit olduğu anlamına gelmez. Aslında çok farklı olabilir. Anlamı şudur: eğer anakütleden sonsuz sayıda örneklemler çeksek ve her örneklem için tahmini hesaplasak bu sonsuz sayıda tahminin ortalaması doğru değere eşit olur.

Sapmasız (W 1 ) ve Sapmalı (W 2 ) iki t.e.nin örnekleme dağılımları

Göreli Etkinlik W1 ve W2 θ nın sapmasız iki t.e. olsun. Eğer ise W1, W2 ye göre daha etkindir. Eğer bir t.e. Kendi sınıfındaki tüm tahmin ediciler içinde en küçük varyanslı olanı ise en etkin t.e. Adını alır. Örneğin tüm sapmasız t.e.ler içinde W1 en düşük varyanslı olanı ise en iyi sapmasız t.e. (best unbiased estimator, BUE) dir. Eğer t.e. Sapmasız değilse varyans yerine ortalama hata karesine (Mean Squared Error, MSE) bakılır:

Sapmasız iki t.e.nin örnekleme dağılımları (W 1, W 2 ye göre daha etkin)

Tahmin edicilerin büyük örneklem (asimptotik) özellikleri Gözlem sayısı n artarken tahmin edicilerin örnekleme dağılımlarının özelliklerini inceleyebiliriz. Tutarlılık (Consistency): n artarken tahmin edicinin doğru parametre değerine yakınlaşma olasılığının büyüyeceğini söyler: Eğer Wn θ için tutarlıysa, θ Wn in olasılık limitidir (plim probability limit) Tutarlı bir t.e., gözlem sayısı arttıkça doğru parametre değerine daha çok yaklaşır, ilgili örneklem dağılımı doğru değer çevresinde yoğunlaşır.

Tutarlı bir tahmin edicinin farklı gözlem sayıları için örnekleme dağılımları

Tutarlılık (devam) Eğer bir tahmin edici tutarsızsa θ hakkında bize bilgi vermez. Bu nedenle ekonometri ve istatistikte tahmin edicilere ilişkin aranan ilk özellikdir. Sapmasız bir t.e., tutarlı olmayabilir Sapmasız bir tahmin edicinin varyansı n büyürken sıfıra yaklaşıyorsa o tahmin edici tutarlıdır. Başka bir deyişle olasılık limiti θ dır. Büyük Sayılar Kanunu (Law of Large Numbers): {Y 1,Y 2,...,Y n } ortalaması µ olan bir anakütleden çekilmiş rassal bir örneklem (iid) olsun. LLN a göre bu örneklemin ortalamasının olasılık limiti anakütle ortalamasına eşittir:

Olasılık limitinin özellikleri:

Asimptotik Normallik ve Merkezi Limit Teoremi

Tahmin Yöntemleri Momentler Yöntemi (Method of Moments): Populasyon momentlerinin örneklem momentlerine eşitlenerek ortaya çıkan denklem sisteminin θ için çözümüne dayanır. Maksimum Olabilirlik (Maximum Likelihood): Bilinen anakütle dağılımından rassal örneklem çekildiği varsayımı altında, bu örneklemin ortak olasılık yoğunluk fonksiyonunun (ya da olabilirlik fonksiyonunun) bilinmeyen parametre vektörü θ için çözümüne dayanır. En Küçük Kareler (Least Squares): Örneklem ortalaması, populasyon ortalamasının ML ve MOM t.e. dir. Aynı zamanda EKK t.e. Olduğu gösterilebilir. Bu ifadeyi min. Yapan m örneklem ortalamasıdır:

Aralık Tahmini Örnek: Anakütle varyansı bilinmiyor ve örneklem yeterince büyük değil. Bilinmeyen pop. Std. sapması yerine örneklem sapmasını Yazarak Olduğundan hareketle %95 güven aralığı Olarak yazılır. Burada c, t(n-1) dağılımının kritik değerleridir.

t-dağılımı

Hipotez Testi

Hipotez Testi: Örnek: Normal anakütle ortalamasının testi, tek taraflı

Çift-taraflı test

Asimptotik test Eğer gözlem sayısı n yeterince büyükse anakütle ortalamasına ilişkin testleri Merkezi Limit Teoreminden hareketle yapabiliriz. Yeterince büyük n için t-dağılımı standart normal dağılıma yakınsar. Uygulamada 30-60 arası gözlem sayısı için t kritik değerlerinin kullanılması yaygındır. n>120 için t ile standart normal kritik değerleri arasında bir fark yoktur.

p-değeri Test sürecinde I. Tip hata olasılığının, yani anlamlılık düzeyinin (α) önceden seçilmesi gerekiyordu. Bunun yerine şu soruyu sorabiliriz: Sıfır hipotezinin reddedilmemesine (kabulüne) yol açan en büyük anlamlılık düzeyi nedir? Bu p-değeri olarak bilinir. H 0 ın reddedilebileceği en düşük anlamlılık düzeyi, ya da reddedilemeyeceği en yüksek anlamlılık düzeyi. Örnek: µ ya ilişkin test yaptığımızı ve test istatistiğini t=1.52 olarak bulduğumuzu düşünelim. Bu durumda p- değeri: olur. Sağ kuyruk testi yaptığımıza göre 1.52 nin sağ tarafında kalan alandır.

p-değeri, örnek

p-değeri Yorum: küçük p-değeri H 0 aleyhinde kanıt olduğu anlamına gelir. Önceki örnekte p-değeri 0.065 bulunmuştu. H 0 doğruyken 1.52 ve daha büyük t değeri gözlemleme olasılığımız 0.065 tir. Bu değer 2.85 olsaydı p-değeri 0.002 olurdu. Bunun anlamı şudur: H 0 doğruyken 2.85 ten daha büyük t değeri çekme olasılığı 0.002 gibi küçük bir olasılıktır. I.tip hata yapmanın, yani H0 doğru olduğu halde reddetmenin olasılığı oldukça düşük çıkmıştır. Bu da H0 aleyhine güçlü kanıt anlamına gelir. öyle düşünülebilir: eğer H 0 ı reddedersem hata yapma olasılığım çok düşük, öyleyse rahatça H 1 lehine reddedebilirim. Tersi durumda yüksek bir p-değeri H 0 aleyhine kanıtın zayıf olduğu anlamına gelir. Bu durumda H 0 ı reddetmek istemeyiz çünkü I. Tip hata işleme olasılığımız yüksektir.