İstatistik ve Olasılık Ders 8: Prof. Dr. İrfan KAYMAZ
Tanım Tahmin (kestirim veya öngörü): Mevcut bilgi ve deneylere dayanarak olayın bütünü hakkında bir yargıya varmaktır. Bu anlamda, anakütleden çekilen örnek verileri üzerinde istatistiksel yöntemler uygulanarak elde edilen sonuçlar anakütleye genelleştirilir. Bu kapsamda uygulanan yöntemler karar teorisi içinde incelenir. Karar teorisi: 1. (örnek verilerinden hareketle parametre değerlerini tahmin etme) 2.Testler (örnek verilerinden hareketle tahmin edilen parametre değerleri hakkında karar verme) Bu kısmın konusunu oluşturan tahminler ise nokta tahmini ve aralık tahmini olmak üzere iki başlık altında incelenmektedir.
Nokta Tahmini Örneklerden hesaplanan ortalama ve varyans gibi değerler anakütle parametrelerinin nokta tahminleridir. Nokta tahminlerinin anakütle parametrelerine eşit olmaları beklenemez. Belirli bir hata veya sapma her zaman için söz konusudur. Örneğin: Bir şeker fabrikasında torbalanan şekerlerin ortalama ağırlığı =50 kg olduğu halde rastgele çekilen 4 örneğin (çuvalın) ağırlıkları X 1 =48 kg, X 2 =52 kg, X 3 =51 kg ve X 4 =49 kg olabilir Nokta tahminlerinin tutarlılığını ortaya koyan bazı özellikler: yansızlık, kararlılık, etkinlik yeterlilik
Nokta Tahmini Yansızlık (sapmasızlık-unbiased): Örnek verilerinden elde edilen bir tahminin beklenen değeri anakütle değerine eşit ise bu nokta tahmini yansızdır denir. Örneğin: E(X)= olduğu için aritmetik ortalama yansız bir tahmindir Kararlılık: Örnekteki birim sayısının artmasıyla nokta tahmini anakütle değerine (yani parametreye) daha da yakınsıyorsa ilgili tahmin kararlıdır. Örneğin: Örnekteki birim sayısı arttıkça aritmetik ortalama anakütle ortalamasına daha da yaklaştığı için mod ve medyana göre daha kararlıdır.
Nokta Tahmini Etkinlik: Nokta tahminlerinin en önemli özelliğidir Varyansı en küçük olan nokta tahmini en etkin tahmindir Örneğin: 2 2 aritmetik ortalamanın varyansı: x n medyanın varyansı: V 2 med 2n daha küçük olduğundan, aritmetik ortalama daha etkin bir nokta tahminidir. Yeterlilik: Nokta tahmininin örnekteki bilgileri kullanma özelliğidir. Örnekteki bilgileri en fazla kullanan nokta tahmini en yeterli nokta tahminidir. Örneğin: mod ve medyan (bölünme asimetrik ise) örnekteki bütün bilgiler dikkate alınarak hesaplanmadıklarından, ortalamaya göre daha kötü nokta tahminleridir.
Aralık Tahmini (Güven Aralığı) Nokta tahmininin belirli bir hata payı ile anakütle parametresine yakınsama derecesinin tespit edilmesi oldukça önemlidir. Nokta tahminini kullanarak anakütle parametresini belirli bir olasılıkla (doğruluk payı ile) içinde bulunduracağı alt ve üst sınırları gösteren güven sınırları veya güven aralığı tahminleri yapılmaktadır. Tahminde yapılabilecek hata seviyesi ile gösterilirse, 1- tahminin doğruluk seviyesini (güven düzeyini) gösterilebilir. 1- ile gösterilen güven düzeyi için genellikle %99 veya %95, nadiren de %90 değerleri (bu durumda hata payları, seçilen güven düzeyine bağlı olarak, sırasıyla %1, %5 ve %10 olacaktır) esas alınmaktadır.
Aralık Tahmini (Güven Aralığı) Hata terimi normal dağılım eğrisinin her iki ucunda eşit ( /2) olarak yer alır. /2 lik hata seviyesine karşı gelen tablo değeri (Z /2 ), ilgili dağılımın standart hatası ile çarpılarak aralığın alt ve üst sınırlarını belirlemede kullanılacak olan hata terimi belirlenmiş olur. Belirlenen hata terimi örnek istatistiğine eklendiğinde üst güven sınırı, çıkarıldığında ise alt güven sınırları oluşturulur.
Aralık Tahmini (Güven Aralığı) Gerek tahminlerde, gerekse hipotez testlerinde işlemler parametre (anakütleye ait gösterge) ve tahminin (örneğe ait gösterge) dağılım biçimine göre yürütülür. Özellikle normal dağılım gösteren verilerden elde edilen tahminlerde: Z (standart normal) dağılım, t dağılımı 2 (ki-kare) dağılımı yaygın olarak kullanılmaktadır.
Aralık Tahmini (Güven Aralığı) Güven aralıkları ve hipotez testlerinde kullanılacak dağılım: ilgilenilen parametreye ait anakütle varyansının bilinip bilinmemesine örnek büyüklüğüne bağlı olarak belirlenmektedir. Kullanılacak dağılım aşağıdaki ilkelere göre belirlenir: Anakütle varyansı ( 2 ) biliniyorsa Z dağılımı Anakütle varyansı ( 2 ) bilinmiyorsa n 30 ise Z dağılımı n<30 ise t dağılımı
Aralık Tahmini (Güven Aralığı) Hesaplamalarda t dağılımı veya Z dağılımı kullanmanın gerekliliği küçük ve büyük örnek teorilerine dayanmaktadır. Genellikle, büyük örneklere (n 30) ait örnek dağılımlarının yaklaşık olarak normal (daha gerçekçi) dağılım gösterdiği ve n büyüdükçe normale daha fazla yakınsadığı bilinmektedir. Küçük örneklere (n<30) ait örnek dağılımları normal dağılımdan uzaklaşmaktadır. Bu uzaklaşma n küçüldükçe daha da fazlalaşmaktadır. Bu nedenle, büyük örnekler için Z dağılımı kullanılırken, küçük örnekler için Z dağılımı yerine t (student) dağılımını kullanmak gerekmektedir.
t-dağılımı Küçük örnek istatistiklerinin gösterdiği dağılım normal dağılım eğrisi gibi simetrik bir görünümde olmakla birlikte, normal dağılım eğrisine göre daha basık ve yayvan biçimdedir. Yayvanlıktan dolayı t dağılımı eğrisinin kuyrukları altında kalan alan Z dağılımına göre daha büyüktür.
t-dağılımı Küçük örnekler için Z tablosu yerine farklı örnek büyüklükleri ve önem (güven) seviyeleri esas alınarak hesaplanan t tabloları kullanılır. n 30 için t tablosu değeri Z tablosu değerine çok yaklaşır. Bu sebeple n 30 olan örneklerde t tablosu yerine Z tablosu kullanılmalıdır.
Ortalamanın Güven Aralığı Anakütle Varyansı Biliniyorsa Bir örnekten elde edilen istatistiği anakütle ortalaması nün nokta tahminidir. Nokta tahmininin anakütle değerine eşit olması beklenemez. Bunun için anakütle ortalaması yü içinde bulunduracak 1- güven düzeyindeki aralık tahmini aşağıdaki gibi yapılır: X
Ortalamanın Güven Aralığı ifadesi elde edilir ve ortalamanın güven aralığı olarak adlandırılır.
Ortalamanın Güven Aralığı Örnek: Bir tezgahta üretilen parçaların dış çaplarının standart sapması =2.4 cm dir. Tezgahın üretiminden rastgele seçilen 16 parçanın dış çap ortalaması 3.2 cm olarak bulunmuştur. %5 hata (%95 güven) seviyesinde anakütle ortalamasının güven aralığını tahmin ediniz.
Ortalamanın Güven Aralığı Örnek Çözüm: =2.4 cm n=16 parça X 3 2 cm 1- =0.95 =0.05 /2=0.025 Z tablosundan Z /2 =Z 0.05/2 =Z 0.025 =1.96 değeri alınır... Alınan örneklere göre sözü edilen tezgahta üretilen parçaların dış çapları ortalamasının %5 hata (%95 doğruluk) payı ile 2.024 cm ile 4.376 cm arasında olacağı söylenebilir.
Ortalamanın Güven Aralığı Nokta tahminini içine alan güven aralığının dar veya geniş olmasını etkileyen başlıca iki faktör vardır: Seçilen hata düzeyi (hata düzeyi küçüldükçe aralık genişler) -> az etkin İlgili varyansın değeri (varyans küçüldükçe aralık daralır) -> çok etkin
Örnek Büyüklüğü Az sayıda örneğin incelenmesi ile ulaşılan nokta tahmininin anakütle parametresine eşit olması beklenemez. Belirli bir sapma her zaman için söz konusu olabilir. Sapmanın büyüklüğü anakütle parametresi (örneğin ) ile nokta tahmini (örneğin ) arasındaki fark kadar olacaktır. X Sözü edilen fark büyük ise (örneğin nün değeri a dayalı olarak oluşturulan güven aralığının sınırlarına yakın ise) hata miktarı maksimum düzeyde olacaktır. X
Örnek Büyüklüğü Örnek hacmi (n) artırılarak nün tahmininde yapılan hata miktarı azaltılabilir. Bu amaçla ortalamanın güven aralığı oluşturulurken yapılabilecek hatanın belirlenen bir değerden az olması için alınması gereken örnek sayısı aşağıdaki formülü yardımıyla belirlenebilir
Ortalamanın Güven Aralığı Örnek: Bir tezgahta üretilen parçaların dış çaplarının standart sapması =2.4 cm dir. Tezgahın üretiminden rastgele seçilen 16 parçanın dış çap ortalaması 3.2 cm olarak bulunmuştur. %5 hata (%95 güven) seviyesinde örnek ortalaması (tahmin edilen değer) ile anakütle ortalaması (gerçek değer) arasındaki farkın (yani hatanın) 1 cm veya daha az olması için alınması gereken örnek hacmi ne olmalıdır? Örnek Çözüm: d=1 cm =2.4 cm ve Z /2 =1.96 değerleri formülde yerine koyulursa n 1.96 * 2.4 22. 12 23 1 2 parça örnek alınması gerektiği görülür
Ortalamanın Güven Aralığı Anakütle Varyansı Bilinmiyorsa Anakütle varyansının bilinmediği, fakat örnek hacminin 30 veya daha büyük olduğu (n 30) durumlarda örnek varyansı (S 2 ) kullanılarak Z dağılımı yardımıyla güven aralığı oluşturulur. Anakütle varyansının bilinmediği durumlarda örnek hacmi 30 dan küçük (n<30) ise küçük örnek teorisine göre geliştirilen t dağılımı yardımıyla güven aralığı oluşturulur.
Ortalamanın Güven Aralığı Anakütle varyansının bilinmediği ve n<30 olduğu durumlarda anakütle ortalaması yü içinde bulunduracak 1- güven düzeyindeki aralık tahmini aşağıdaki gibi yapılır:
Ortalamanın Güven Aralığı Not: Güven aralığı formülünde verilen n-1 ifadesi serbestlik derecesini göstermektedir. t tabloları tek veya çift yönlü olarak hazırlanmaktadır. Bu özellik tabloda belirtilir. Tek veya çift yönlü ayrımı; istenen bölge dağılımın her iki kuyruğunu kapsıyorsa çift yönlü, sadece tek kuyruğunu kapsıyorsa tek yönlü olarak yapılmaktadır. Testlerin çift yönlü ve tek yönlü görünümleri aşağıdaki dağılım diyagramları üzerinde gösterilmiştir.
Ortalamanın Güven Aralığı Örnek: Bir işyerinde çalışan işçilerin boylarına göre tezgah yüksekliklerinin ayarlanması amacıyla bir araştırma yürütülmüştür. Farklı bölümlerden rasgele 25 işçi seçilmiş ve boyları ölçülmüştür. İşçilerin boyları ortalaması 1.72 m ve varyansı 0.18 olarak belirlendiğine göre %99 güven (%1 hata) seviyesinde anakütle ortalamasının güven sınırlarını tahmin ediniz. Örnek Çözüm: Anakütle varyansı ( 2 ) bilinmediği ve örnek hacmi (n=25) 30 dan küçük olduğu için güven aralığının oluşturulmasında t dağılımından yararlanılacaktır %99 güven düzeyinde sözü edilen işyerindeki işçilerin boyları ortalamasının 1.48m ile 1.96m arasında olacağı söylenebilir(veya olması beklenir)
t-tablosunun okunuşu İstenen hata (yani veya /2) düzeyinin değeri tablonun yatay eksenindeki Pr kısmına işaretlenir. Serbestlik derecesi (yani SD=n-1) değeri düşey sütundaki SD kısmına işaretlenir. Yatay ve düşey eksenlerde işaretlenen değerlerin kesiştiği hücrede bulunan değer aranan t tablosu olasılık değeridir Bu probleme ait /2=0.005 değeri yatay eksene, SD=24 değeri düşey eksene işaretlenir ve tablodan ilgili olasılık: t /2,n-1 = t 0.005;24 =2.797
İki Ortalama Farkının Güven Aralığı Anakütle Varyansı Biliniyorsa İki ortalama arasındaki farkın dağılımına ilişkin Z değişkeni: Güven aralığı ifadesinde konulursa: İki ortalama arasındaki farkın güven aralığı:
İki Ortalama Farkının Güven Aralığı Anakütle Varyansı Bilinmiyorsa Anakütle varyansının bilinmediği, fakat örnek hacminin 30 veya daha büyük olduğu (n 30) durumlarda örnek varyansı (S 2 ) kullanılarak Z dağılımı yardımıyla güven aralığı oluşturulur. Anakütle varyansının bilinmediği durumlarda örnek hacmi 30 dan küçük (n<30) ise küçük örnek teorisine göre geliştirilen t dağılımı yardımıyla güven aralığı oluşturulur.
İki Ortalama Farkının Güven Aralığı Örnek hacimlerine bağlı olarak
Ortalamanın Güven Aralığı Örnek: İçinde kusurlu ürün bulunduğu bilinen 8 koli ile kusurlu ürün bulunmadığı bilinen 9 kolinin ortalama ağırlıkları kg olarak aşağıda verilmiştir: Kusurlu koli 125 120 119 123 126 116 118 119 Kusursuz koli 130 130 128 126 125 120 132 127 128 %95 güven düzeyinde ortalamalar arasındaki farkın güven aralığını oluşturunuz.
Ortalamanın Güven Aralığı Örnek Çözüm: %95 güven düzeyinde (%5 hata payı ile) kusursuz ve kusurlu kolilerin ağırlıkları arasındaki farkın 2.94 kg ile 10.22 kg arasında olacağı söylenebilir(olması beklenir)
Bir Oranın Güven Aralığı Binom dağılımı gösteren bir anakütleden alınan örneklerin Ortalaması: Varyansı: Örnek hacminin yeterince büyük olması durumunda binom dağılımına normal dağılım yaklaşımının kullanılacağı da bilinmektedir. Z eşitliği: Bir oranın 1- güven düzeyindeki aralık tahmini:
İki Oran Farkının Güven Aralığı İki oran farkının dağılımına ilişkin verilen Z eşitliği: Güven aralığı genel formülünde yerine koyulur ve gerekli ara işlemler yapılırsa ; iki oran farkının 1- güven düzeyindeki aralık tahmini:
Varyansın Güven Aralığı Örnek varyansı S 2, anakütle varyansı 2 nin bir nokta tahminidir. Varyanslarla ilgili tahminler ve testler 2 (ki-kare) dağılımı kullanılarak yapılmaktadır. Standart normal dağılmış Z i değişkeninin kareleri toplamı k serbestlik dereceli 2 dağılımına uygunluk gösterir: 2 dağılımının: ortalaması E( 2 )=k varyansı V( 2 )=2k olduğundan dolayı dağılım doğrudan serbestlik derecesi (k) ile belirlenmektedir. Sağa uzun kuyruklu olan 2 dağılımı, serbestlik derecesi arttıkça simetrikleşmektedir (yani normale yaklaşmaktadır).
Ki-kare dağılımı 2 dağılımı için t dağılımına benzer şekilde tablolar oluşturulmuştur. Kullanılacak 2 tablosu P( 2 > 2 i)= olasılığını verecek şekilde göre düzenlenmiştir. Kullanılacak 2 tablosu bakılan değerden sonsuza kadar olan alanı verecek şekilde düzenlenmiştir.
Varyansın Güven Aralığı Varyansın güven aralığının belirlenmesinde 2 dağılımının kullanımının temelinde örnek varyansı formülü bulunmaktadır. İşlemler aşağıdaki gibi açıklanabilir: Örnek varyansı: Her iki tarafı Eşitliğin sağ tarafı (n-1) serbestlik derecesine sahip ki-kare dağılımıdır: Varyansın güven aralığı:
Ki-kare dağılımı Örnek: Bir fabrikanın üretiminden rasgele alınan 20 birimlik örneğin varyansı 35 olarak belirlendiğine göre %99 güven düzeyinde fabrikanın üretimine (yani anakütleye) ait varyansın güven aralığını oluşturunuz. Örnek Çözüm: Belirlenen aralık tahmini şöyle yorumlanabilir: %99 güven (doğruluk) düzeyinde sözü edilen fabrikanın üretimine ait varyansın 17.237 ile 97.222 arasında olacağı söylenebilir (veya bu aralıkta olması beklenir).
Standart Sapmanın Güven Aralığı Örnek standart sapması S anakütle standart sapması nın bir nokta tahminidir. Standart sapmanın güven aralığı Z dağılımı yardımıyla aşağıdaki gibi oluşturulur.
Gelecek Dersin Konusu Hipotez Testleri.