ASTROİSTATİSTİK 4. KONU Hazırlaya: Doç. Dr. Tolgaha KILIÇOĞLU 4. VERİLERİN YAYILIMININ BELİRLENMESİ Bir veri taımlaırke orta değer (ortalama, medya veya mod) verilmesii yaıda verileri yayılımıa (saçılmasıa) ilişki de bir bilgi verilmesie ihtiyaç vardır. Öcelikte bu kouda kullamak üzere birkaç veriyi ele alalım. Çizelge 4.1 de A, B ve C olarak adladırıla 3 farklı veri yer almaktadır. Her verii üyesi bulumaktadır. Şekil 4.1 de ise bu verileri frekas dağılımları bir histogram üzeride gösterilmektedir. Çizelge 4.1 A, B ve C verileri A B C 5 5 5 5 4 5 5 4 3 6 2 5 4 3 8 5 6 5 5 5 7 5 6 5 4 7 1 5 6 9 Şekil 4.1 A, B ve C verilerii frekas dağılımlarıı histogram grafiği üzeride gösterimi Çizelge 4.1 deki A, B ve C verilerii üçüü de mod, medya ve ortalama değerleri birbirleri ile ayı ve 5 e eşittir. Acak, Şekil 4.1 deki frekas dağılımlarıa bakıldığıda verileri birbirlerie hiç bezemediği görülür. Soru 4.1: Bu verilerde hagisi içi hesapladığımız ortalama değer daha güveilir olacaktır? Cevap 4.1: Şekil 1.1 deki frekas dağılımları icelediğide A verisii daha az saçılmaya sahip (daha duyarlı) olduğu görülür. Bu edele soruu cevabı A verisidir. E duyarsız olaı ise C verisidir. Bu soruu cevabıda da alaşılacağı gibi bir veriyi doğru şekilde yorumlamak ve çıkarımlarda bulumak içi verii e kadar duyarlı olduğua (yayılımıa) ilişki başka bir ölçüme de ihtiyaç vardır. Bu kou kapsamıda verileri yayılımıı hagi ölçeklerle belirlediğii göreceğiz.
4.1 Açıklık Bir verii değişkeliğii ortaya koymaı kolay yollarıda biri verii açıklığıa bakmaktır. Bir başka deyişle, verideki e küçük ile e büyük değer arasıdaki farka bakmaktır: [Açıklık]=[E büyük değer] [E küçük değer] Bua göre veri aralıkları A verisi içi 6 4=2, B verisi içi 7 3=4 ve C verisi içi 9 1=8 olarak elde edilir. Verileri aralığı irdelediğide e az değişkelik sergileye verii A verisi, e çok değişim sergileyei ise C verisi olduğu görülmektedir. Avatajlar: Veri aralığı yötemii tek avatajlı yaı çok hızlı şekilde hesaplaabilir olmasıdır. Öyle ki, değerlere hiçbir özel işlem uygulamada sadece göz gezdirerek dahi tespit edilebilir. Dezavatajlar: Veri aralığı yötemi sadece verideki e küçük ve e büyük değere bağlıdır. Arada kala değerleri dağılımıı hiçbir şekilde yasıtmamaktadır. Burada örek olarak suduğumuz 3 veri de simetrik bir dağılım sergilemektedir. Acak, bazı verilerde bu simetriyi boza aykırı değerler (aşırı büyük veya aşırı küçük) buluabilir. Bu durumda veri aralığı yötemi verideki aykırı değerlerde so derece etkileir. Souç olarak veri aralığı bir verii değişkeliğii ifade edilmeside çok güveilir değildir. 4.2 Ortalamada sapmalar Bir verideki her elemaı değerii ortalamada e kadar saptığı buluur ve bu değerler toplaırsa değişkeliği temsil edilebileceği bir parametre elde edileceği düşüülebilir. Şimdi C verisi içi bu hesabı yapalım. Çizelge 4.2 de ilk sütuda C verisideki değerler ve ikici sütuda bu değerleri ortalamada ola farkları verilmektedir. Çizelge 4.2 C verisi ve verideki değerleri ortalama değerde ola sapmaları x i ( x i x) 2 2 5 = 3 5 5 5 = 0 4 4 5 = 1 3 3 5 = 2 8 8 5 = 3 7 7 5 = 2 1 1 5 = 4 5 5 5 = 0 6 6 5 = 1 9 9 5 = 4 (x i x)= 0
Acak, değerleri ortalamada ola sapmaları topladığıda sıfır değeri elde edilir. Bu beklemedik bir durum değildir; çükü ortalama değer zate verileri tam ortasıı temsil eder. Ortalama değere egatif yöde ola uzaklıklar ile pozitif yöde ola uzaklıklar birbirii degelediğide toplamları hagi veri içi olursa olsu sıfır değerii verecektir. Bu edele, ortalamada ola farkları doğruda toplamı verii değişkeliğii temsil etmede kullaılamaz. 4.3 Ortalama Mutlak Sapma Soru 4.1: Ortalamada ola sapmaları toplamıı sıfır olmasıı egellemek içi sapmalara asıl bir işlem yapılabilir? Cevap 4.1: Ortalamada daha küçük ola değerleri ortalamada ola farkları egatif değerler almaktadır. Eğer bu egatif değerler pozitif olarak alıırsa değerleri birbirlerii yutması egellemiş olur. Başka bir deyişle, verideki değerleri ortalamada ola sapmalarıı mutlak değerlerii alıması bu problemi çözebilir. Bir verideki her elemaı değerii ortalamada e kadar saptığı buluur ve bu değerleri mutlak değerii ortalaması alıırsa Ortalama Mutlak Sapma değeri elde edilir. Ortalama mutlak sapmaı matematiksel ifadesi şöyledir: Ortalama Mutlak Sapma= i=0 Çizelge 4.3 A, B ve C verilerii mutlak sapmaları ve ortalaması A VERİSİ B VERİSİ C VERİSİ x i x i x i 5 5 5 = 0 5 5 5 = 0 2 2 5 = 3 5 5 5 = 0 5 5 5 = 0 5 5 5 = 0 5 5 5 = 0 4 4 5 = 1 4 4 5 = 1 5 5 5 = 0 3 3 5 = 2 3 3 5 = 2 4 4 5 = 1 6 6 5 = 1 8 8 5 = 3 5 5 5 = 0 7 7 5 = 2 7 7 5 = 2 6 6 5 = 1 5 5 5 = 0 1 1 5 = 4 5 5 5 = 0 6 6 5 = 1 5 5 5 = 0 5 5 5 = 0 5 5 5 = 0 6 6 5 = 1 5 5 5 = 0 4 4 5 = 1 9 9 5 = 4 =0.2 =0.8 =2.0
Çizelge 4.3 te A, B ve C verileri içi mutlak sapmaları değerleri ve souçta elde edile ortalama mutlak sapma değeri suulmaktadır. A, B ve C verilerii ortalama mutlak sapmalarıı sırasıyla 0.2, 0.8 ve 2.0 olduğu görülmektedir. Bu durumda yie e değişke ola verii C, e kararlı verii ise A olduğu soucua varılır. Böylece verideki tüm değerleri hesaba kata ve değişkeliği temsil ede kullaışlı bir değer elde ettik. Avatajlar: Bir verii değişkeliğii tüm değerleri göz öüde buludurarak hesaplar. Bu edele verileri duyarlılıklarıı karşılaştırmada kullaılabilir. Dezavatajlar: Ortalama mutlak sapma değerii işaret ettiği aralıkta verii yüzde kaçıı buluduğu verii dağılımıa so derece bağlıdır. Öreği, C verisii ortalama mutlak sapması 2 dir. Verii ortalama değeri 5 olduğua göre 5 2=3 ve 5+2=7 değerleri arasıda kala 6 adet değer vardır. Veride toplam elema olduğua göre bu aralık verileri %60 ıa karşılık gelmektedir. A veriside de bezer bir hesap yapıldığıda oraı %80 olduğu görülür. Bu değerler %50 i üzeride olduğuda miktarlarıı yeterli olduğu düşüülebilir. Acak, ormal dağılıma e yakı B verisi içi bu ora %40 a düşer! Her e kadar ortalama mutlak sapma bir verii değişkeliğii ortaya koymada doğru bir yötem gibi gözükse de, bazı dağılımlar içi aldığı değer verii saçılmasıı ortaya koymada yetersiz kalmaktadır. Bu alamda bu sapma değeri stadart olarak kabul edilmez. 4.4 Varyas Bir veride değerleri ortalamada sapma miktarlarıı egatif değerlerde arıdırmak içi mutlak değerlerii almak yerie karelerii de alabiliriz. Değerleri ortalamada sapma miktarlarıı karelerii ortalamasıa varyas deir. Popülasyou ve öreklemi varyası arasıda küçük bir fark bulumaktadır. Bir popülasyou varyası; σ 2 = (x i μ) 2 i=0 N ifadesi ile hesaplaır. Burada μ popülasyou ortalama değeridir. Acak söz kousu öreklem olduğuda hesapladığımız x ortalama değeri μ de daha uzakta (ve öreklemdeki değerlere daha yakı) olabilir. Bu edele bir öreklemi varyası popülasyou varyasıda daha küçük çıkacaktır. Bu hataı düzeltilmesi içi Bessel bir öreklem içi bulua varyası /( 1) ile çarpılması gerektiğii bulmuştur. Bu terime Bessel Düzeltmesi adı verilir. Bessel düzeltmesi kullaıldığıda bir öreklemi varyası ( s 2 ) içi aşağıdaki ifade elde edilir: s 2 = i=0 (x i x) 2 1
Çizelge 4.4 A, B ve C verilerii varyaslarıı hesaplaması A VERİSİ B VERİSİ C VERİSİ x i ( x i x) 2 x i ( x i x) 2 x i ( x i x) 2 5 (5 5) 2 = 0 5 (5 5) 2 = 0 2 (2 5) 2 = 9 5 (5 5) 2 = 0 5 (5 5) 2 = 0 5 (5 5) 2 = 0 5 (5 5) 2 = 0 4 (4 5) 2 = 1 4 (4 5) 2 = 1 5 (5 5) 2 = 0 3 (3 5) 2 = 4 3 (3 5) 2 = 4 4 (4 5) 2 = 1 6 (6 5) 2 = 1 8 (8 5) 2 = 9 5 (5 5) 2 = 0 7 (7 5) 2 = 4 7 (7 5) 2 = 4 6 (6 5) 2 = 1 5 (5 5) 2 = 0 1 (1 5) 2 = 16 5 (5 5) 2 = 0 6 (6 5) 2 = 1 5 (5 5) 2 = 0 5 (5 5) 2 = 0 5 (5 5) 2 = 0 6 (6 5) 2 = 1 5 (5 5) 2 = 0 4 (4 5) 2 = 1 9 (9 5) 2 = 16 (x i x) 2 9 =0.22 (x i x) 2 9 =1.33 (x i x) 2 9 =6.67 A, B ve C verilerii bu ifade kullaılarak varyas hesabı Çizelge 4.4 te verilmektedir. A, B ve C verileri içi varyas değerlerii sırasıyla 0.22, 1.33 ve 6.67 olarak elde edilir. Burada gözükmektedir ki varyas bir verii değişkeliğie oldukça bağimlı bir parametredir. İfadede farkları kareleri alıdığıda saçılma arttıkça varyası değeri hızla artmaktadır. Bu alamda varyas verileri e kadar dağıık olduğuu belirlemede kullaılabilir. Avatajlar: Bir verii değişkeliğii tüm değerleri göz öüde buludurarak hesaplar ve bu değişkeliğe so derece bağlıdır. Bu edele verileri duyarlılıklarıı karşılaştırmada kullaılabilir. Dezavatajlar: Varyas değerii sahip olduğu birim kafa karıştırıcıdır ve yorumlaması zordur. Öreği veride bulua değerleri birimleri metre (m) olsu. Bu durumda hesaplaa varyas değerii birimi (kare alıdığıda dolayı) metrekare (m 2 ) olacaktır. Varyası sahip olduğu birimle verideki değerleri birimlerii birbirleriyle uyuşmaması verii yorumlamasıı oldukça zorlaştırmaktadır. 4.5 Stadart Sapma Varyası birimii kare de kurtarmaı kolay bir yolu buluur: varyası kareköküü almak! Varyası karekökü istatistikte e sık kullaıla yayılım göstergeleride biridir ve stadart sapma (s) olarak isimledirilir. Aşağıda stadart sapma içi iki matematiksel ifade bulumaktadır: [Stadart sapma]= [Varyas]
s= (x i x) 2 i=0 1 Çizelge 4.4 de A, B ve C verileri içi elde edile varyas değerlerii karekökleri alıırsa bu verileri stadart sapmaları sırasıyla 0.5, 1.2 ve 2.6 olarak buluur. Bu değerler, öceki bölümde 0.2, 0.8 ve 2.0 olarak hesapladığımız ortalama mutlak sapmalarda bir miktar daha fazla olduğu görülmektedir. Not: Stadart sapmaı popülasyo içi hesapladığı durumlarda paydaya yie yerie N yazılması gerektiğii uutmayıız. ( 1) Avatajlar: Stadart sapma bir verii değişkeliğii tüm değerleri göz öüde buludurarak hesaplar ve verilerle ayı birimdedir. Stadart sapma, ortalama mutlak sapmaya azara daha fazla değer aralığıı kapsar. Öreği, B verisii stadart sapması 1.2 ve verii ortalaması 5 olduğua göre, 5 1.2=3.8 ve 5+1.2=6.2 değerleri arasıda 8 elema buluur. Veride toplam elema buluduğua göre 5±1.2 stadart sapma aralığı verileri %80 ii kapsamaktadır (ortalama mutlak sapmaı bu veri içi %40 da kaldığıı hatırlayıız). Burada örek olarak verdiğimiz veriler kesiklidir ve oldukça az elemada oluşmaktadır. Gerçekte ormal dağılım sergileye bir verii %68 ide fazlası stadart sapma aralığıda kalır. Bu alamda stadart sapmaı değeri ortalama mutlak sapmaya azara daha güveilirdir. Stadart sapma verileri duyarlılıklarıı karşılaştırmada kullaılabilecek ideal ölçütlerdedir. Dezavatajlar: Stadart sapma da aykırı değerlere oldukça bağımlıdır. 4.6 Çeyreklikler Arası Açıklık Bir veride üç tae çeyreklik buluur. Bu çeyreklikler birici, ikici ve üçücü çeyreklikler olarak adladırılır. Bir verideki değerler küçükte büyüğe doğru (veya tersie doğru) sıraladığıda tam ortaya dek gele değeri medya değeri olduğuu daha öce söylemiştik. Bu değere ayı zamada ikici çeyreklik (Ç 2 ) deir. İkici çeyreklik verileri ortada ikiye böler. İkici çeyrekliği soluda kala verileri medyaıa birici çeyreklik (Ç 1 ), sağıda kala verileri medyaıa ise üçücü çeyreklik (Ç 3 ) deir. Bir başka deyişle, birici, ikici ve üçücü çeyreklik sıralamış bir veride başta %25, %50 ve %75 ilerlediğide karşılaşıla değerlerdir. Çeyreklikler belirledikte sora çeyreklikler arası açıklık aşağıdaki ifade ile hesaplaır: ÇAA=Ç 3 Ç 1 Soru 4.2 Aşağıdaki verii çeyrekliklerii hesaplayarak çeyreklikler arası açıklığı buluuz. 6 8 1 7 5 5 2
Cevap 4.2 i) Öcelikle verileri küçükte büyüğe doğru sıralayalım: 1 2 5 5 6 7 8 ii) Verileri tam ortasıa dek gele sayı ikici çeyreklik (yai medya) olacaktır: 1 2 5 5 6 7 8 Ç 2 iii) Şimdi ikici çeyrekliği veride olmadığıı düşüelim. Bu durumda ikici çeyrekliği soluda kala verii medyaı birici çeyreklik sağıda kala verii medyaı ise ikici çeyreklik olacaktır: 1 2 5 5 6 7 8 Ç 1 Ç 2 Ç 3 iv) Verii çeyreklikler arası açıklığı hesaplaır: ÇAA=Ç 3 Ç 1 =7 2=5 Soru 4.3 Aşağıdaki verii çeyrekliklerii hesaplayarak çeyreklikler arası açıklığı buluuz. 5 6 2 1 3 8 2 8 Cevap 4.3 i) Öcelikle verileri küçükte büyüğe doğru sıralayalım: 1 2 2 3 5 6 8 8 i) Verileri tam ortasıa dek gele sayıı ikici çeyreklik (yai medya) olması gerekir. Acak bu veride üye sayısı çift olduğuda orta oktaya iki veri dek gelmektedir. Medyaı buluması içi bu değeri ortalaması alıır: 1 2 2 3 5 6 8 8 4 Ç 2 iii) İkici çeyreklik değeri veriye ait olmadığıda diğer tüm değerler yeride kalır. İkici çeyrekliği soludaki değerleri medyaı alıarak birici çeyreklik, sağıdaki değerleri medyaı alıarak ise üçücü çeyreklik buluur. Acak yie medyaa karşılık gele değerler iki adet olduğuda ortalamaları alıır. 1 2 2 3 5 6 8 8 2 4 7 iv) Verii çeyreklikler arası açıklığı hesaplaır: ÇAA=Ç 3 Ç 1 =7 2=5 Ç 1 Ç 3 Ç 2
Soru 4.4 A, B ve C verileri içi çeyreklikler arası uzaklığı hesaplayıız. Cevap 4.4 Gerekli işlemler yapıldığıda A, B ve C verilerii çeyreklikler arası uzaklıklarıı sırasıyla 0, 2 ve 4 olduğu elde edilir. Görüldüğü gibi ÇAA da verileri yayılımıı doğru olarak verebilmiştir. Avatajlar: Çeyreklikler arası açıklık diğer yayılım ölçekleri ile karşılaştırıldığıda aykırı değerlerde etkilemez veya çok az etkileir. Öreği, Soru 4.3 de so değeri 8 yerie 8000 olduğuu düşüü. Verii ÇAA değeri yie ayı olacaktır. Dezavatajlar: Çeyreklikler arası açıklık ölçeği sadece çeyrekliklerle hesaplaır. Çeyreklikleri aralarıda kala değerler tam olarak temsil edilmemektedir. Çeyreklikler arası açıklık geellikle belirgi aykırı değelere sahip ola veriler içi kullaılır. Bu ölçeği tek başıa verilmesi yerie stadart sapma ile birlikte ifade edilmesi daha alamlı ve kullaışlıdır.