11. Hafta Ders Notları BİR İSTATİSTİĞE DAİR FARKLI ÖRNEKLEMLERDEN ELDE EDİLEN DEĞERLERİN DAĞILIMI (SAMPLING DISTRIBUTION OF A STATISTIC)

11. Hafta Ders Notları BİR İSTATİSTİĞE DAİR FARKLI ÖRNEKLEMLERDEN ELDE EDİLEN DEĞERLERİN DAĞILIMI (SAMPLING DISTRIBUTION OF A STATISTIC) Hatırlanacağı üzere, bir anakütleye ait olan sayısal değerlere (örneğin ortalama veya standart sapma için) parametre; örnekleme ait olan sayısal değerlere ise istatistik adı verilmekteydi. Gerçek hayatta daima anakütle verilerine ulaşmak sıklıkla mümkün olan bir durum değildir. Şayet anakütle verileri ile çalışmak mümkün olsaydı, sadece tek bir ortalama veya standart sapma değeri elde edileceğinden, istenilen analizler kolaylıkla yapılabilirdi. Zira bir anakütledeki değerlerin tamamı gözlemlenebiliyorsa, tüm değerler dikkate alınarak ortalama veya standart sapma hesaplanabilir ve bunlar sadece tek bir (unique) değer olarak elde edilebilirdi. Oysa anakütledeki gözlem değerlerinin tamamının daima dikkate alınması veya hesaba katılması, her zaman mümkün olmamaktadır. Bu gibi durumlarda, anakütlenin bir kısmı analize konu edilmektedir. Anakütleden çekilen belirli büyüklükteki gözlem değerleri kümesine örneklem adı verilmektedir. Örneklemin temel özelliği, içerdiği eleman sayısı, daima anakütle eleman sayısından küçüktür: n N n: örneklem eleman sayısı N: anakütle eleman sayısı Böyle bir durumda, elde edilecek örneklem sayısı ve bu örneklem üzerinden hesaplanacak olan istatistikler (ortalamalar veya standart sapmalar), elde edilecek örneklem sayısınca olacaktır. 1 Örneklemlerden Elde Edilen Ortalamaların Dağılımı Bir örnek üzerinden bu durumu açıklamaya çalışalım. Örneğin firmamızda çalışan 6 işçi olsun ve bu işçilerin iş tecrübeleri (yıl cinsinden) aşağıdaki gibi olsun: İşçinin adı Tecrübesi (yıl) İşçinin adı Tecrübesi (yıl) Ahmet 2 Ayşe 6 Mehmet 4 Fatma 7 Mahmut 6 Zeynep 8 1

Bu 6 işçinin ortalama iş tecrübesi (yıl cinsinden) 5,5 yıldır: μ = X N = 2 + 4 + 6 + 6 + 7 + 8 = 5,5 6 Şimdi de şunu varsayalım: İşçiler belirli bir şekilde vardiyalarda 4 er kişilik gruplar halinde çalışacaklardır. 6 kişilik (N) bir gruptan kaç farklı 4 er kişilik (n) grup oluşturulabilir? C = N n N n = 6 4 6 4 = 15 6 işçiden 4 er kişiden oluşan 15 farlı vardiya grubu oluşturulabilir. Böyle bir durumda her bir grubun ortalama iş tecrübesi (yıl cinsinden) farklı olacaktır: Örneklem Örneklem Ort. Örneklem Örneklem Ort. (2,4,6,6) 4.50 (2,6,7,8) 5.75 (2,4,6,7) 4.75 (2,6,7,8) 5.75 (2,4,6,8) 5.00 (4,6,6,7) 5.75 (2,4,6,7) 4.75 (4,6,6,8) 6.00 (2,4,6,8) 5.00 (4,6,7,8) 6.25 (2,4,7,8) 5.25 (4,6,7,8) 6.25 (2,6,6,7) 5.25 (6,6,7,8) 6.75 (2,6,6,8) 5.50 Her bir olası grubun ortalama iş tecrübesi, şu şekilde hesaplanır: X = X n Böylece 15 farklı örneklem için 15 farklı ortalama değeri hesaplanır. 6 kişilik işçiler (anakütle) arasından oluşturulan 4 er kişilik 15 farklı grubun (örneklemler) her birinin ortalama iş tecrübesi yanlarındaki sütuna yazılmıştır. Dikkat edilirse anakütlede tek bir 2

ortalama değeri (parametre) mevcutken; örneklem alınması sonucunda 15 farklı ortalama değeri (istatistik) ortaya çıkmıştır. Şimdi örneklem ortalamalarının beklenen değerini hesaplayalım. Diğer bir ifadeyle, örneklem ortalamalarının ortalamasını alalım. Bunu yapabilmemiz için, her bir vardiya grubunun ortaya çıkma olasılığını hesaplamalıyız. Zira rassal bir değişkenin ortalamasını veya standart sapmasını hesaplayabilmek için olasılık dağılımına ihtiyacımız vardır: E X = X P X Burada ele alınan rassal değişken, vardiyalardaki ortalama iş tecrübesidir (X). Ortalama değerleri " E X = X P X Olasılık değerleri Ortalama değerleri 4,5 1/15 5,5 1/15 4,75 2/15 5,75 3/15 5,0 3/15 6,0 1/15 5,25 1/15 6,25 2/15 6,75 1/15 Olasılık değerleri 1/4 1/5 Ortalama Olasılıkları 3/20 1/10 1/20 0 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,50 6,75 3

" E X = X P X = 4,5 + 5,75 1 15 + 4,75 2 15 + 5,0 3 15 + 5,25 1 15 + 5,5 1 15 3 15 + 6,0 1 15 + 6,25 2 15 + 6,75 1 15 = 5,5 Bir anakütleden çekilen aynı büyüklükteki örneklemlerden elde edilen ortalamaların dağılımı: Bu sonuçlar bize, aynı anakütleden çekilen aynı büyüklükteki örneklemlerden elde edilen ortalamaların dağılımı hakkında iki önemli sonucu vurguluyor: (1) Örneklemlerden elde edilen ortalamaların beklenen değeri (ortalaması), anakütle ortalamasına eşittir. (2) Örneklem ortalamalarının dağılımı, normal dağılım gösterme eğilimindedir. 4

2 Örneklemlerden Elde Edilen Varyansların Dağılımı Aynı anakütleden çekilen aynı büyüklükteki örneklemlerden elde edilen varyansların ortalamaları, anakütle varyansına eşittir. Örneklemlerden elde edilen varyansların dağılımı, sağa çarpık bir şekil alma eğilimindedir. 3 Örneklemlerden Elde Edilen Nispetlerin/Oranların (Proportion) Dağılımı p: Anakütle oranı p: Örneklem oranı Örneğin, düzgün bir zar 5 defa atılsın. Bu işlem sonucunda tek sayı gelme oranını bulalım. Dahası, bu süreç sonsuza kadar devam ederse, bütün örneklemlerin davranışı hakkında ne söyleyebiliriz? Bilindiği üzere bir zar üzerinde 3 ü çift ve 3 ü tek sayı olmak üzere toplam 6 sayı vardır. Bu durumda anakütle için tek sayı oranı %50 dir. Bu, her 5 atış içerisinde daima gelen sayıların yarısı tek ve yarısı çift sayılar olacağı anlamına gelmemektedir. Ancak süreci sonsuza kadar tekrar ederseniz, örneklemlerin oranlarının ortalamasının da %50 olduğunu göreceksiniz. (1) Örneklem oranlarının ortalaması, anakütle oran değerine eşittir. (2) Örneklem oranlarının dağılımı, normal dağılım gösterme eğilimdedir. 4 SAPMASIZ TAHMİN EDİCİLER (UNBIASED ESTIMATORS) Şayet bir anakütle parametresine dair tahminde bulunmak için bir örneklemin istatistiğini kullanacaksak, sistematik olarak anakütle parametresinin altında veya üstünde olan sapmalı (biased) tahmin ediciler değil, anakütle parametresini (ortalama olarak) veren örneklem istatistikleri tahmin edici olarak kullanılmalıdır. SAPMASIZ TAHMİN EDİCİLER Ortalama (x) Varyans (s ) Oran (p) SAPMALI TAHMİN EDİCİLER Medyan Range Standart sapma 5

Örneklemlerden elde edilen standart sapmaların ortalaması her ne kadar anakütle parametresi ile aynı olmasa da, şayet örnekleme işlemi çok sayıda tekrarlanırsa, örneklemlerin standart sapması, anakütle standart sapmasına oldukça yakın bir değer olmaktadır. Tekrarlı Örnekleme (Sampling with replacement) Dikkat edilirse ele alınan örneklemlerde tekrarlı örneklemler kullanılmıştır. Bunun anlamı, seçilen bir anakütle gözlem değeri, diğer seçimlerde dışarıda bırakılmamış, anakütleye tekrar dâhil edilmiş ve diğer örnekleme işlemlerinde de seçilme olanağı tanınmıştır. Oysa gereksiz yere tekrar olmasın diye, tekrarsız örnekleme (sampling without replacement) yapılabilirdi. Tekrarlı örnekleme yapmamızın iki nedeni vardı: (1) Büyük sayıda gözlem değeri içeren bir anakütleden küçük çaplı bir örneklem çekildiğinde tekrarlı ve tekrarsız olarak oluşturulan örneklemler arasında çok anlamlı bir fark olmamaktadır (Koşul: n 0.05N). (2) Çekilen örneklemlerin tekrarlı olması, her bir örneklemin birbirlerinden bağımsız olmasına neden olacaktır (Bir önceki olayın sonuçlarından sonraki olayın etkilenmediği durum) ve böylece bağımsız olaylara ait sonuçların analiz edilmesi daha kolay olacaktır. 5 MERKEZİ LİMİT TEOREMİ Bu bölümde, ileriki bölümlerde detaylı olarak tartışılacak olan anakütle parametreleri için tahminde bulunma ve hipotez testleri için bazı temel bilgileri edineceğiz. Ortalaması μ ve standart sapması σ olan bir anakütleden tek bir örneklem çekildiğinde, şu prensipleri bilmek önemlidir: (1) Şayet örneklemlerde yer alan gözlem sayısı 30 dan büyükse (n 30), örneklemlerin ortalamalarının dağılımı, ortalaması μ ve standart sapması σ/ n ile normal dağılım gösterecektir. Bu dağılım formu, anakütlenin dağılım formundan bağımsız olarak gerçekleşecektir. (2) Şayet örneklemlerde yer alan gözlem sayısı 30 dan küçük (n < 30) ve anakütle normal dağılıma sahipse örneklem ortalamalarının dağılımı, ortalaması μ ve standart sapması σ/ n ile normal dağılım gösterecektir. (3) Şayet örneklemlerde yer alan gözlem sayısı 30 dan küçük (n < 30) ve anakütle normal dağılım göstermiyorsa, bu bölümdeki işlemler uygulanamayacaktır. 6

Burada aklımızda tutmamız gereken şey şudur: Bizim şu andaki ilgilendiğimiz şey, bir anakütleden örneklem çekerken elde edilen örneklemlerin ortalamalarının davranışıdır. Merkezi Limit Teoremine göre, anakütle normal dağılım göstermese bile şayet örneklemdeki gözlem sayısı yeterince büyükse, örneklemlerin ortalamalarının dağılımı normale yakın olacaktır. Burada sadece teoreme dair bilgi verilecektir, teoremin ispatı üzerine her hangi bir tartışmaya girilmeyecektir. Odaklanmamız gereken nokta, bu teoremi, elimizdeki soruna nasıl uygulayacağımızdır. Merkezi Limit Teoremi ve Örneklem Ortalamalarının (X) Dağılımı Temel Kabuller 1. Bir rassal değişken (X) ele alalım. Bu rassal değişkenin ortalaması μ ve standart sapması σ olsun. Rassal değişkenin dağılımı normal olabilir veya olmayabilir. 2. Bu rassal değişken X in anakütlesinden, büyüklüğü n ve her birinin gerçekleşme olasılığı aynı olan mümkün sayıda kaç tane örneklem varsa çekilir. Sonuçlar 1. Örneklemlerin ortalamalarının (x) dağılımı, örneklemlerin gözlem sayısı n arttıkça, normale yakınsayacaktır. Örneklemlerdeki gözlem sayısının 30 dan büyük olması yeterlidir. Ancak n ne kadar büyük olursa, normal dağılıma yakınsama o kadar artacaktır. 2. Anakütlenin dağılımının normal olduğu biliniyorsa, örneklem ortalamalarının da dağılımı normal olacaktır. Bu durumda örneklemlerdeki gözlem sayısının 30 dan büyük veya küçük olmasının bir önemi olmayacaktır. Örneklem Ortalamalarının dağılımı için Notasyonlar Ortalaması μ ve standart sapması σ olan bir anakütleden içerdiği gözlem sayısı n olan olası bütün örneklemler çekildiğinde, bu örneklemlerin ortalamalarının ortalaması (beklenen değeri) μ ile temsil edilir. Örneklem ortalamalarının beklenen değeri (ortalaması) de anakütle ortalamasına eşittir: μ = μ Örneklem ortalamalarının standart sapması da σ ile temsil edilir: σ = σ n 7

Örneklem ortalamalarının standart sapması, örneklem ortalamalarının standart hatası (standart error of the mean) olarak da adlandırılır. Merkezi Limit Teoreminin Uygulanması Bu tip sorunlarla çalışırken dikkat etmemiz gereken iki nokta var: Ya elde ettiğimiz örneklemdeki gözlem sayısı 30 dan büyük olacak veya örneklem çektiğimiz anakütlenin dağılımının normal olduğunu bileceğiz. Bu iki koşuldan biri sağlandığı anda, örneklemlerin ortalamalarının ortalamasının μ ve standart sapmasının ile normal dağılım gösterdiği kabul edilebilir. Normal dağılıma sahip bir anakütleden çekilecek tek bir gözlem değeri için z = x μ σ Örneklem ortalamalarının standart sapması için kullanacağımıza emin olduğumuz durumlar için: z = x μ σ = x μ σ/ n Örnek 1: ABD de yapılan araştırmaya göre, ABD deki tüm erkeklerin ağırlığı, ortalama 172 lb ve standart sapması 29 lb ile normal dağılım göstermektedir. a) Rastgele seçilen bir erkeğin175 lb den daha ağır olma olasılığı nedir? b) Rastgele seçilen 20 erkeğin ortalama ağırlığının 175 lb ve daha fazla olma olasılığı nedir? Çözüm 1-a: Dikkat edilirse bu şıkta anakütlenin tamamının gözlemlendiği, ortalamasının ve standart sapmasının bilindiği bir durumda ağırlığı 175 lb ve daha fazla olan 8

kişilerin sıklığı sorulmaktadır. Bu sorunun cevabını verebilmek için eldeki verileri, standart normal dağılıma dönüştürmemiz gerekmektedir: Z = μ = 172 lb σ = 29 lb P X 175 lb =? X μ σ = 175 172 29 = 0.10 P X 175 lb = P(Z 0.10) Bulunan Z değerine karşılık gelen alanın sayısal değerini bulmak için pozitif Z tablosuna bakalım: P Z 0.10 = 0.5398 Eksi sonsuzdan gelip 0.10 değerini alan Z dağılımının taradığı alanın sayısal değeri 0.5398 dir. Bizim ilgilendiğimiz soru, 0.10 dan büyük olma olasılığıdır: P Z 0.10 = 1 P Z 0.10 P Z 0.10 = 1 0.5398 P Z 0.10 = 0.4602 P Z 0.10 = P X 175 lb = 0.4602 Rassal olarak seçilen bir erkeğin 175 lb ve daha ağır biri olma olasılığı % 46.02 dir. 9

Çözüm 1-b: Merkezi limit teoremi bağlamında, örneklemin büyüklüğünün 30 dan küçük olmasına rağmen, anakütle normal dağılım gösterdiği için, elde edilecek örneklemlerin ortalamaları da normal dağılım gösterecektir. Örneklem ortalamaları normal dağılım gösterdiklerine göre, örneklem ortalamalarının dağılımının merkezi (ortalaması), anakütle ortalamasına eşit olacaktır: μ = μ = 172 lb Örneklem ortalamalarının standart sapması da şu şekilde hesaplanacaktır: σ = σ n = 29 20 = 6.484 Şu andan itibaren, anakütleden elde edilebilecek örneklemlerin ortalamalarının dağılımını kullanmaktayız. Soru da şu şekildedir: Anakütleden çekilen 20 gözlemli örneklemlerin ortalamalarının 175 lb ve daha yüksek olma olasılığı nedir? P X 175 lb =? İlgili değerler için Z değerini elde edelim: Z = X μ = X μ σ σ n = 175 172 29/ 20 = 0.46 P X 175 lb = P Z 0.46 Bu değere karşılık gelen pozitif Z tablo değerini tespit edelim: P Z 0.46 = 0.6772) Bunun anlamı, eksi sonsuzdan gelip 0.46 olana kadar Z dağılımının taradığı alanın sayısal değeri 0.6772 dir. Bizim ilgi alanımız ise, Z nin bu değerden daha büyük olma olasılığıdır: P Z 0.46 = 1 P Z 0.46 P Z 0.46 = 1 0.6772 P Z 0.46 = 0.3228 172 lb ortalama, 29 lb standart sapma ile normal dağılıma sahip bir anakütleden çekilecek 20 gözlemli örneklemlerin ortalama değerinin 175 lb ve daha fazla olma olasılığı % 32.28 dir. 10

Örnek 2: Mensa isimli derneğe üye olma koşullarından biri, IQ skorunuzun 131.5 ve üzeri olmasıdır. Dünya genelinde insanların IQ skorunun ortalamasının 100 ve standart sapmasının 15 ile normal dağılım gösterdiği bilinmektedir. a) Rassal olarak seçilen birinin IQ testinden en az 131.5 puan alma olasılığı nedir? Pozitif Z tablosunda Z = X μ σ μ = 100 σ = 15 P X 133 =? = 131.5 100 15 = 2.1 P X 131.5 = P(Z 2.1) P Z 2.1 = 0.9821 P Z 2.1 = 1 P Z 2.1 P Z 2.1 = 1 0.9821 P Z 2.1 = 0.0179 P Z 2.1 = P X 133 = 0.0179 Rassal olarak seçilen birinin 131.5 IQ puanı ve daha yüksek alma olasılığı % 1.79 dur. b) Rassal olarak seçilen 9 kişinin IQ skorunun 131.5 puan ve daha yüksek olma olasılığı nedir? Anakütleden çekilen 9 gözlemli örneklemlerin ortalama değerlerinin dağılımı ile ilgiliyiz. Her ne kadar örneklemlerdeki gözlem sayısı 30 un altında olsa da, anakütle normal dağıldığı için örneklem ortalamaları da normal dağılacaktır. Bu durumda anakütle ortalaması, örneklem ortalamalarının merkezi (ortalaması) olacaktır: μ = μ = 100 Örneklem ortalamalarının standart sapması da şu şekilde hesaplanacaktır: σ = σ n = 15 9 = 5 Şu andan itibaren, anakütleden elde edilebilecek örneklemlerin ortalamalarının dağılımını kullanmaktayız. Soru da şu şekildedir: Anakütleden çekilen 9 gözlemli örneklemlerin ortalamalarının 131.5 ve daha yüksek IQ puanı olma olasılığı nedir? P X 131.5 =? 11

İlgili değerler için Z değerini elde edelim: Z = X μ = X μ σ σ n 131.5 100 = = 6.3 15/ 9 P X 131.5 = P Z 6.3 Bu değere karşılık gelen pozitif Z tablo değerini tespit edelim: P Z 3.50 = 0.9999) Bu durumda olasılık değeri oldukça küçük olacaktır. P Z 6.3 = 1 P Z 3.50 P Z 6.3 = 1 0.9999 P Z 6.3 = 0.0001 100 ortalama, 15 standart sapma ile normal dağılıma sahip bir anakütleden çekilecek 9 gözlemli örneklemlerin ortalama değerinin 131.5 ve daha fazla olma olasılığı 1000 de 1 den daha düşüktür. Örnek 3: İnsanların ortalama vücut ısının 98.6 F olduğu kabul edilir. Standart sapmasının da 0.62 F olduğunu kabul edelim. 106 kişinin rassal olarak seçilmesi sonucunda 98.2 F ve daha düşük vücut ısısı bulma olasılığı nedir? Nadir olay kuralı (Rare event rule): Maryland üniversitesi nde bir grup araştırmacı, yaptıkları çalışma için seçtikleri 106 kişilik örneklem grubunun ortalama vücut ısısı 98.2 F çıkmıştır. Bu durumda iki ihtimal söz konusudur. (1) Gerçekleşme olasılığı çok düşük olan durum gerçekleşmiştir. (2) Gerçekleşme olasılığı çok düşük olduğuna göre anakütle ortalaması ve standart sapmasında bir sıkıntı vardır. 12