Mühendislikte İstatistiksel Yöntemler BÖLÜM 7 TAHMİNLER Yrd. Doç. Dr. Fatih TOSUNOĞLU 1
Tahmin (kestirim veya öngörü): Mevcut bilgi ve deneylere dayanarak olayın bütünü hakkında bir yargıya varmaktır. Bu anlamda, anakütleden çekilen örnek verileri üzerinde istatistiksel yöntemler uygulanarak elde edilen sonuçlar anakütleye genelleştirilir. Bu kapsamda uygulanan yöntemler karar teorisi içinde incelenir. Karar teorisi: 1.Tahminler (örnek verilerinden hareketle parametre değerlerini tahmin etme). 2.Testler (örnek verilerinden hareketle tahmin edilen parametre değerleri hakkında karar verme) Bu kısmın konusunu oluşturan tahminler ise nokta tahmini ve aralık tahmini olmak üzere iki başlık altında incelenmektedir. 2
Nokta tahmini Örneklerden hesaplanan ortalama ve varyans gibi değerler anakütle parametrelerinin nokta tahminleridir. Nokta tahminlerinin anakütle parametrelerine eşit olmaları beklenemez. Belirli bir hata veya sapma her zaman için söz konusudur. Örneğin: Bir şeker fabrikasında torbalanan şekerlerin ortalama ağırlığı =50 kg olduğu halde rastgele çekilen 4 örneğin (çuvalın) ağırlıkları X 1 =48 kg, X 2 =52 kg, X 3 =51 kg ve X 4 =49 kg olabilir. Nokta tahminlerinin tutarlılığını ortaya koyan bazı özellikler: yansızlık, kararlılık, Etkinlik, Yeterlilik. 3
Yansızlık (sapmasızlık-unbiased): Örnek verilerinden elde edilen bir tahminin beklenen değeri anakütle değerine eşit ise bu nokta tahmini yansızdır denir. Örneğin: E(X)= olduğu için aritmetik ortalama yansız bir tahmindir Kararlılık: Örnekteki birim sayısının artmasıyla nokta tahmini anakütle değerine (yani parametreye) daha da yakınsıyorsa ilgili tahmin kararlıdır. Örneğin: Örnekteki birim sayısı arttıkça aritmetik ortalama anakütle ortalamasına daha da yaklaştığı için mod ve medyana göre daha kararlıdır. 4
Etkinlik: Nokta tahminlerinin en önemli özelliğidir Varyansı en küçük olan nokta tahmini en etkin tahmindir Örneğin: aritmetik ortalamanın varyansı: Yeterlilik: Medyanın varyansı 2 x V 2 med 2n Nokta tahmininin örnekteki bilgileri kullanma özelliğidir. n 2 Olup, aritmetik ortalamanın varyansı daha küçük olduğundan, aritmetik ortalama varyansa göre daha etkin bir nokta tahminidir. Örnekteki bilgileri en fazla kullanan nokta tahmini en yeterli nokta tahminidir. Örneğin: mod ve medyan (bölünme asimetrik ise) örnekteki bütün bilgiler dikkate alınarak hesaplanmadıklarından, ortalamaya göre daha kötü nokta tahminleridir. 5
Aralık Tahmini (Güven Aralığı) Nokta tahmininin belirli bir hata payı ile anakütle parametresine yakınsama derecesinin tespit edilmesi oldukça önemlidir. Nokta tahminini kullanarak anakütle parametresini belirli bir olasılıkla (doğruluk payı ile) içinde bulunduracağı alt ve üst sınırları gösteren güven sınırları veya güven aralığı tahminleri yapılmaktadır. Tahminde yapılabilecek hata seviyesi α ile gösterilirse, 1- α tahminin doğruluk seviyesini (güven düzeyini) gösterilebilir. 1-α ile gösterilen güven düzeyi için genellikle %99 veya %95, nadiren de %90 değerleri (bu durumda hata payları, seçilen güven düzeyine bağlı olarak, sırasıyla %1, %5 ve %10 olacaktır) esas alınmaktadır. 6
Hata terimi normal dağılım eğrisinin her iki ucunda eşit ( /2) olarak yer alır. /2 lik hata seviyesine karşı gelen tablo değeri (Z /2 ), ilgili dağılımın standart hatası ile çarpılarak aralığın alt ve üst sınırlarını belirlemede kullanılacak olan hata terimi belirlenmiş olur. Belirlenen hata terimi örnek istatistiğine eklendiğinde üst güven sınırı, çıkarıldığında ise alt güven sınırları oluşturulur. 7
Gerek tahminlerde, gerekse hipotez testlerinde işlemler parametre (anakütleye ait gösterge) ve tahminin (örneğe ait gösterge) dağılım biçimine göre yürütülür. Özellikle normal dağılım gösteren verilerden elde edilen tahminlerde: Z (standart normal) dağılım, t dağılımı 2 (ki-kare) dağılımı yaygın olarak kullanılmaktadır. 8
Güven aralıkları ve hipotez testlerinde kullanılacak dağılım: ilgilenilen parametreye ait anakütle varyansının bilinip bilinmemesine örnek büyüklüğüne bağlı olarak belirlenmektedir. Kullanılacak dağılım aşağıdaki ilkelere göre belirlenir: Anakütle varyansı ( 2 ) biliniyorsa Z dağılımı Anakütle varyansı ( 2 ) bilinmiyorsa n 30 ise Z dağılımı n<30 ise t dağılımı 9
Hesaplamalarda t dağılımı veya Z dağılımı kullanmanın gerekliliği küçük ve büyük örnek teorilerine dayanmaktadır. Genellikle, büyük örneklere (n 30) ait örnek dağılımlarının yaklaşık olarak normal (daha gerçekçi) dağılım gösterdiği ve n büyüdükçe normale daha fazla yakınsadığı bilinmektedir. Küçük örneklere (n<30) ait örnek dağılımları normal dağılımdan uzaklaşmaktadır. Bu uzaklaşma n küçüldükçe daha da fazlalaşmaktadır. Bu nedenle, büyük örnekler için Z dağılımı kullanılırken, küçük örnekler için Z dağılımı yerine t (student) dağılımını kullanmak gerekmektedir. 10
t Dağılımı Küçük örnek istatistiklerinin gösterdiği dağılım normal dağılım eğrisi gibi simetrik bir görünümde olmakla birlikte, normal dağılım eğrisine göre daha basık ve yayvan biçimdedir. Yayvanlıktan dolayı t dağılımı eğrisinin kuyrukları altında kalan alan Z dağılımına göre daha büyüktür. Küçük örnekler için Z tablosu yerine farklı örnek büyüklükleri ve önem (güven) seviyeleri esas alınarak hesaplanan t tablosu kullanılır. n 30 için t tablosu değeri Z tablosu değerine çok yaklaşır. Bu sebeple n 30 olan örneklerde t tablosu yerine Z tablosu kullanılmalıdır. 11
12
ORTALAMANIN GÜVEN ARALIĞIARALIĞI Anakütlenin Varyansı Biliniyorsa Bir örnekten elde edilen istatistiği anakütle ortalaması nün nokta tahminidir. Nokta tahmininin anakütle değerine eşit olması beklenemez. Bunun için anakütle ortalaması yü içinde bulunduracak 1- güven düzeyindeki aralık tahmini aşağıdaki gibi yapılır: 13
ifadesi elde edilir ve ortalamanın güven aralığı olarak adlandırılır. 14
Örnek 1: Bir tezgahta üretilen parçaların dış çaplarının standart sapması =2.4 cm dir. Tezgahın üretiminden rastgele seçilen 16 parçanın dış çap ortalaması 3.2 cm olarak bulunmuştur. %5 hata (%95 güven) seviyesinde anakütle ortalamasının güven aralığını tahmin ediniz. 15
Çözüm: =2.4 cm n=16 parça 1- =0.95 =0.05 /2=0.025 Z tablosundan Z /2 =Z 0.05/2 =Z 0.025 =1.96 değeri alınır ve formülde yerine koyulursa Alınan örneklere göre sözü edilen tezgahta üretilen parçaların dış çapları ortalamasının %5 hata (%95 doğruluk) payı ile 2.024 cm ile 4.376 cm arasında olacağı söylenebilir. 16
Nokta tahminini içine alan güven aralığının dar veya geniş olmasını etkileyen başlıca iki faktör vardır: Seçilen hata düzeyi (hata düzeyi küçüldükçe aralık genişler) -> az etkin İlgili varyansın değeri (varyans küçüldükçe aralık daralır) -> çok etkin 17
Örnek Büyüklüğü Az sayıda örneğin incelenmesi ile ulaşılan nokta tahmininin anakütle parametresine eşit olması beklenemez. Belirli bir sapma her zaman için söz konusu olabilir. Sapmanın büyüklüğü anakütle parametresi (örneğin ) ile nokta tahmini (örneğin ) arasındaki fark kadar olacaktır. Sözü edilen fark büyük ise hata miktarı maksimum düzeyde olacaktır. 18
Örnek hacmi (n) artırılarak nün tahmininde yapılan hata miktarı azaltılabilir. Bu amaçla ortalamanın güven aralığı oluşturulurken yapılabilecek hatanın belirlenen bir değerden az olması için alınması gereken örnek sayısı aşağıdaki formülü yardımıyla belirlenebilir 19
Örnek 2: Bir tezgahta üretilen parçaların dış çaplarının standart sapması =2.4 cm dir. Tezgahın üretiminden rastgele seçilen 16 parçanın dış çap ortalaması 3.2 cm olarak bulunmuştur. %5 hata (%95 güven) seviyesinde örnek ortalaması (tahmin edilen değer) ile anakütle ortalaması (gerçek değer) arasındaki farkın (yani hatanın) 1 cm veya daha az olması için alınması gereken örnek hacmi ne olmalıdır? 20
Çözüm: d=1 cm =2.4 cm ve Z /2 =1.96 değerleri formülde yerine koyulursa n 1.96 * 2.4 22. 12 23 1 2 parça örnek alınması gerektiği görülür 21
Anakütle Varyansı Bilinmiyorsa Anakütle varyansının bilinmediği, fakat örnek hacminin 30 veya daha büyük olduğu (n 30) durumlarda örnek varyansı (S 2 ) kullanılarak Z dağılımı yardımıyla güven aralığı oluşturulur. Anakütle varyansının bilinmediği durumlarda örnek hacmi 30 dan küçük (n<30) ise küçük örnek teorisine göre geliştirilen t dağılımı yardımıyla güven aralığı oluşturulur. 22
Anakütle varyansının bilinmediği ve n<30 olduğu durumlarda anakütle ortalaması yü içinde bulunduracak 1- güven düzeyindeki aralık tahmini aşağıdaki gibi yapılır: 23
Not: Güven aralığı formülünde verilen n-1 ifadesi serbestlik derecesini göstermektedir. t tabloları tek veya çift yönlü olarak hazırlanmaktadır. Bu özellik tabloda belirtilir. Tek veya çift yönlü ayrımı; istenen bölge dağılımın her iki kuyruğunu kapsıyorsa çift yönlü, sadece tek kuyruğunu kapsıyorsa tek yönlü olarak yapılmaktadır. Testlerin çift yönlü ve tek yönlü görünümleri aşağıdaki dağılım diyagramları üzerinde gösterilmiştir. 24
Örnek 3: Bir işyerinde çalışan işçilerin boylarına göre tezgah yüksekliklerinin ayarlanması amacıyla bir araştırma yürütülmüştür. Farklı bölümlerden rasgele 25 işçi seçilmiş ve boyları ölçülmüştür. İşçilerin boyları ortalaması 1.72 m ve varyansı 0.18 olarak belirlendiğine göre %99 güven (%1 hata) seviyesinde anakütle ortalamasının güven sınırlarını tahmin ediniz. 25
Çözüm: Anakütle varyansı ( 2 ) bilinmediği ve örnek hacmi (n=25) 30 dan küçük olduğu için güven aralığının oluşturulmasında t dağılımından yararlanılacaktır %99 güven düzeyinde sözü edilen işyerindeki işçilerin boyları ortalamasının 1.48m ile 1.96m arasında olacağı söylenebilir(veya olması beklenir). 26
t tablosundan değer okuma İstenen hata (yani veya /2) düzeyinin değeri tablonun yatay eksenindeki Pr kısmına işaretlenir. Serbestlik derecesi (yani SD=n-1) değeri düşey sütundaki SD kısmına işaretlenir. Yatay ve düşey eksenlerde işaretlenen değerlerin kesiştiği hücrede bulunan değer aranan t tablosu olasılık değeridir Bu probleme ait /2=0.005 değeri yatay eksene, SD=24 değeri düşey eksene işaretlenir ve tablodan ilgili olasılık: t /2,n-1 = t 0.005;24 =2.797 27
28
Örnek 4: Bir kimyasal içinde bulunan bakır oranının belirlenmesine yönelik yapılan bir çalışmada, 12 gözlem değerinden elde edilen örnek ortalaması %12.91, örnek standart sapması ise %2 olarak bulunmuştur. Bu verilenlere göre gerçek ortalamanın %95 ve %99 güven aralıklarını bulunuz? 29
İki Ortalama Farkının Güven Aralığı Anakütle Varyansı Biliniyorsa İki ortalama arasındaki farkın dağılımına ilişkin Z değişkeni: Güven aralığı ifadesinde konulursa: İki ortalama arasındaki farkın güven aralığı: 30
Anakütle Varyansı Bilinmiyorsa Anakütle varyansının bilinmediği, fakat örnek hacminin 30 veya daha büyük olduğu (n 30) durumlarda örnek varyansı (S 2 ) kullanılarak Z dağılımı yardımıyla güven aralığı oluşturulur. Anakütle varyansının bilinmediği durumlarda örnek hacmi 30 dan küçük (n<30) ise küçük örnek teorisine göre geliştirilen t dağılımı yardımıyla güven aralığı oluşturulur. 31
Örnek hacimlerine bağlı olarak farklı formüller yardımıyla hesaplanır 32
Örnek 5: İçinde kusurlu ürün bulunduğu bilinen 8 koli ile kusurlu ürün bulunmadığı bilinen 9 kolinin ortalama ağırlıkları kg olarak aşağıda verilmiştir: Kusurlu koli 125 120 119 123 126 116 118 119 Kusursuz koli 130 130 128 126 125 120 132 127 128 %95 güven düzeyinde ortalamalar arasındaki farkın güven aralığını oluşturunuz. 33
Çözüm: %95 güven düzeyinde (%5 hata payı ile) kusursuz ve kusurlu kolilerin ağırlıkları arasındaki farkın 2.94 kg ile 10.22 kg arasında olacağı söylenebilir(olması beklenir) 34
Bir Oranın Güven Aralığı Binom dağılımı gösteren bir anakütleden alınan örneklerin Ortalaması: =p Varyansı: Örnek hacminin yeterince büyük olması durumunda binom dağılımına normal dağılım yaklaşımının kullanılacağı da bilinmektedir. Z eşitliği: Bir oranın 1- güven düzeyindeki aralık tahmini: 35
Bir anakütle oranının tahmininde hata miktarının belirli bir düzeyi aşmaması için alınması gereken örnek hacmi: formülü yardımıyla belirlenebilir. 36
İki Oran Farkının Güven Aralığı İki oran farkının dağılımına ilişkin verilen Z eşitliği: Güven aralığı genel formülünde yerine koyulur ve gerekli ara işlemler yapılırsa ; iki oran farkının 1- güven düzeyindeki aralık tahmini: 37
Varyansın Güven Aralığı Örnek varyansı S 2, anakütle varyansı 2 nin bir nokta tahminidir. Varyanslarla ilgili tahminler ve testler 2 (ki-kare) dağılımı kullanılarak yapılmaktadır. Standart normal dağılmış Z i değişkeninin kareleri toplamı k serbestlik dereceli 2 dağılımına uygunluk gösterir: 2 dağılımının: ortalaması E( 2 )=k varyansı V( 2 )=2k olduğundan dolayı dağılım doğrudan serbestlik derecesi (k) ile belirlenmektedir. Sağa uzun kuyruklu olan 2 dağılımı, serbestlik derecesi arttıkça simetrikleşmektedir (yani normale yaklaşmaktadır). 38
Ki-Kare Dağılımı 2 dağılımı için t dağılımına benzer şekilde tablolar oluşturulmuştur. Kullanılacak 2 tablosu P( 2 > 2 i)= olasılığını verecek şekilde göre düzenlenmiştir. Kullanılacak 2 tablosu bakılan değerden sonsuza kadar olan alanı verecek şekilde düzenlenmiştir. 39
Varyansın güven aralığının belirlenmesinde 2 dağılımının kullanımının temelinde örnek varyansı formülü bulunmaktadır. İşlemler aşağıdaki gibi açıklanabilir: Örnek varyansı: Her iki tarafı ifadesi ile çarpılırsa Eşitliğin sağ tarafı (n-1) serbestlik derecesine sahip ki-kare dağılımıdır: Varyansın güven aralığı ki-kare dağılımının güven aralığı bağıntısından belirlenir : 40
Örnek 6: Bir fabrikanın üretiminden rasgele alınan 20 birimlik örneğin varyansı 35 olarak belirlendiğine göre %99 güven düzeyinde fabrikanın üretimine (yani anakütleye) ait varyansın güven aralığını oluşturunuz. 41
Çözüm : Belirlenen aralık tahmini şöyle yorumlanabilir: %99 güven (doğruluk) düzeyinde sözü edilen fabrikanın üretimine ait varyansın 17.237 ile 97.222 arasında olacağı söylenebilir (veya bu aralıkta olması beklenir). 42
43
Örnek 7: Otuz birimlik bir örneğin varyansı 100 ve ortalaması 15 olarak hesaplanmıştır. Bu örneğe ait popülasyon varyansının; a) %90 güven sınırlarını b) %95 güven sınırlarını bulunuz? 44
Standart Sapmanın Güven Aralığı Örnek standart sapması S anakütle standart sapması nın bir nokta tahminidir. Standart sapmanın güven aralığı Z dağılımı yardımıyla aşağıdaki gibi oluşturulur. 45
Kaynaklar 1- İstatistik ve Olasılık Ders Notları-Prof. Dr. Cafer ÇELİK 2- İstatistik ve Olasılık Ders Notları-Prof. Dr. İrfan KAYMAZ 3-İstatistiğe Giriş- Prof. Dr. Necati YILDIZ 4- İstatistik Analiz Metotları- Prof. Dr. Bilge ALOBA KÖKSAL 5- Mühendisler için İstatistik- Prof. Dr. Mehmetçik BAYAZIT 46