BİYOİSTATİSTİK DAĞILIM (DEĞİŞKENLİK) ÖLÇÜLERİ (MEASURES OF DISPERSION) B Doç. Dr. Mahmut AKBOLAT
*Bazı serilerin ortalamaları eşit olmakla birlikte dağılımları (değişkenlikleri) farklı olabilir. *Örneğin, bir grup öğrencinin 50, 60, 60, 70, 70, 70, 80, 80, 90 olan notlarının ortalaması 70, diğer bir grup öğrencinin 10, 70, 70, 70, 80, 80, 80, 80, 90 olan notlarının ortalaması da 70 olur. *Her iki öğrenci grubunun notlarının ortalaması aynı olmasına rağmen, bu iki serinin dağılımı aynı değildir. Bu sebeple, ortalamalar, bir veri grubunu özetlemekle birlikte, bu veri grubunun ortalama etrafındaki dağılım biçimi hakkında bilgi vermezler. *Verilerin ortalama etrafında ne derece sık dağıldığını, birbirlerinden ve ortalamadan ne ölçüde uzaklaştığını ve ne tip bir seri meydana getirdiğini belirlemek amacıyla dağılım ölçüleri kullanılır
*Bir dağılım ölçüsü ne kadar küçük ise veriler ortalama etrafında o kadar sık dağılmış demektir. Verilerin ortalama etrafında sık dağılması ise ortalamanın temsil gücünün artması anlamına gelir. Yani iki veya daha fazla dağılımdan hangisinin dağılım ölçüsü daha küçük ise, o dağılımda ortalamanın temsil gücü daha fazla demektir. *Bu nedenle, ortalamanın temsil gücü ile değişkenlik arasında ters bir ilişki vardır. Değişkenlik arttıkça ortalamanın temsil gücü azalmakta, değişkenlik azaldıkça ortalamanın temsil gücü artmaktadır.
*Örneğin, aşağıdaki şekilde görüldüğü üzere, B serisinin değişkenliği, A serisinin değişkenliğinden fazladır. *Ayrıca, hangi eğri daha dik ise, veriler orada daha sık dağılmış demektir. Bu durum DÖ A < DÖ B biçiminde gösterilir.
DAĞILIM ÖLÇÜLERİ A) Parametrik Olmayan Dağılım Ölçüleri Değişim Aralığı Kartil Aralığı Desil Aralığı B)Parametrik Dağılım Ölçüleri Ortalama Sapma Standart Sapma Varyans Değişim Katsayısı
*Serideki bazı değerlerin hesaba katılmasıyla belirlenebilen ölçülerdir. Yani bu ölçüleri belirleyebilmek için serideki her bir değerin ne olduğunun bilinmesine gerek yoktur. *Parametrik olmayan dağılım ölçüleri, bütün ölçek düzeylerinle elde edilmiş değişkenler için kullanılır ve değişkenin ölçü birimi cinsinden sonuç verir.
* En basit dağılım Ölçüsüdür. Veri grubundaki en büyük değer ile en küçük değer arasındaki farka eşittir. R = D.A = X max - X min biçiminde gösterilir. * Değişim aralığı serinin değişkenliği hakkında, vakit kaybetmeden, kolay ve pratik olarak genel bir bilgi sağlar. * Bununla beraber, sadece iki değer dikkate alınarak belirlenmesi önemli bir dezavantajıdır. * Bu nedenle, değişim aralığı aşırı değerlerin direkt etkisi altındadır Bu durumda, veri grubundaki aşırı değerler işlem dışı tutularak değişim aralığı hesaplanmalı veya başka bir dağılım ölçüsü kullanılmalıdır.
* Örnek 1) Değerleri 4, 5, 10, 1,13 olan basit serinin değişim aralığı * R = D.A = Xmax - Xmin =13-4 = 9 olarak bulunur. * Örnek ) Aşağıdaki smıflandırılmış serinin değişim aralığı da basit seride olduğu gibi. X f 6 5 7 10 8 6 10 4 11 7 R = DA = X max- X min =11-6 = 5
* Örnek 3) Aşağıdaki gruplandırılmış serinin değişim aralığı,. X -5 5 5-8 8 f R = DA = X max- X min =17- = 15 8-11 6 11-14 4 14-17 7
* Üçüncü kartil den birinci kartil in çıkanlmasıyla elde edilir ve K.A = Q3 Q1 biçiminde gösterilir. Değeri ne kadar büyük olursa, değişkenliğin o kadar fazla demektir. * Kartil aralığı, serinin baştan ve sondan %5 lik kısımlarını ihmal ettiğinden genellikle açık sınıflardan etkilenmez. Bu sebeple değişim aralığına nispeten uç değerlerden daha az etkilenir Dolayısıyla açık sınıflı serilerde kullanılır. Bununla birlikte serinin %50 nin ihmal edilmesinden dolayı hesaplamaya bütün değerlerin katılmaması dezavantajı, bu dağılım ölçüsü içinde geçerlidir.
* Örnek 4) Verileri, 3, 3, 4, 4, 4, 4, 5, 5, 6 olan serinin kartil aralığını bulunuz. Birinci kartil için toplam frekans (N) X f kf 10 olduğundan N+ = 3 4 4 bulunur. 1 1 Yani birinci kartil, üçüncü terime 3 3 karşılık gelir. Bu durumda birinci 4 4 7 kartil, Q 1 = 3 olarak bulunur. Üçüncü kartil için 5 9 (3N+)/4=(3.10+)/4=8 bulunur. 6 1 10 Yani üçüncü kartil sekizinci terime karşılık gelir. Bu durumda üçüncü kartil Q3 = 5 olarak bulunur.
* Deşil aralığı dokuzuncu desil den, birinci desil in çıkarılması ile elde edilir ve * D.A = D9-D1 biçiminde gösterilir. * Desil aralığı serinin baştan ve sondan %10 luk kısımlarım ihmal eder. Kartil aralığı ise, bir serinin baştan ve sondan %5 lik kısmını ihmal eder. Bu sebeple, deşil aralığında, kartil aralığına göre daha fazla veri kullanılacağından dolayı, desil aralığı ile yapılan hesaplamalarda elde edilen sonuçlardaki hata oranı, kartil aralığına göre daha az olacaktır Çünkü deşil aralığı serinin %80 nini, kartil aralığı ise serinin %50 ni işleme tabi tutmaktadır.
* Parametrik olmayan dağılım ölçülerinde, bütün değerlerin hesaba katılmaması önemli bir dezavantajdır. * Parametrik dağılım ölçülerinde, serideki bütün birimler hesaba katıldığı için, parametrik olmayan dağılım ölçülerindeki dezavantaj ortadan kaldırılmış olur. * Bu ölçülerin tümü, verilerin aritmetik ortalamadan sapmalarını dikkate alır. Parametrik dağılım ölçüleri, eşit aralıklı (interval scale) ve oranlı (ratio scale) ölçek düzeyleri ile elde edilmiş, sayısal değişkenler için kullanılır. Parametrik ortalamalar değişkenin ölçü birimi cinsinden elde edilir.
* Serideki rakamların aritmetik ortalamadan farklarının toplamı sıfırdır. Bu farkların mutlak değerleri alınarak toplam veri sayısına bölünürse ortalama sapma elde edilir. Ortalama sapma, mutlak değerli işlemler gerektirdiğinden çok tercih edilmemektedir.
*Ortalama sapma; basit, sınıflandırılmış ve gruplandırılmış seriler için aşağıdaki gibi hesaplanır. * Basit Seri O. S. = X i X n * Sınıflandırılmış Seri O. S. = f ix i X f i * Gruplandırılmış Seri O. S. = f im i X f i
* Örnek: Verileri 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 olan serinin ortalama sapmasını bulunuz. X f X.f f. X X 3 3 9 3. 3 5 = 6 4 4 16 4. 4 5 = 4 5 6 30 6. 5 5 = 0 6 4 4 4. 6 5 = 4 7 3 1 3. 7 5 = 6 T 100 0 10 O. S. = f ix i X f i = 10 0 =0,5 * Önce serinin aritmetik ortalaması bulunur X = f ix i = 100 f i 0 = 5 * Bu değer, bütün verilerden çıkarılarak sonuçların mutlak değerleri alınır ve tamamı toplanır.
*Verilerin aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kareköküdür. Bir veri grubundaki bütün birimlerin hesaba katılmasıyla belirlendiği için, uygulamada en fazla kullanılan ve en güvenilir dağılım ölçüsüdür. Standart sapma, eşit aralıklı (interval scale) ve oranlı (ratio scale) ölçek düzeyleri ile elde edilmiş, sayısal değişkenler için kullanılır. *Standart sapma, sapmalar serisinin (aritmetik ortalamadan sapmalar) kareli ortalamasıdır. Yani gözlem değerlerinin aritmetik ortalamadan sapmalarının kareli ortalamasına standart sapma denir. Standart sapmanın karesine varyans adı verilir.
* Aşağıda farklı seri ve veri türü için standart sapmanın formülleri verilmiştir. Basit seri Kütle ( Xi X ) Örnek N S ( Xi X ) n 1 Tasnif edilmiş seri Kütle fi( Xi fi X ) Örnek S ( fi( Xi X ) fi) 1 Gruplanmış seri Kütle fi( mi fi X ) Örnek S ( fi( mi X ) fi) 1 *Yukarıdaki formüllerde örnek verileri için standart sapma formüllerinde paydada (n-1) serbestlik derecesi kullanılmıştır. Örnek hacmi büyük olduğunda bu düzeltmeye ihtiyaç kalmaz.
Örnek: Bir hastanenin satın alma birimine çeşitli kliniklerden gelen günlük taleplerin dağılımı ile ilgili veriler yandaki tabloda verilmiştir. Bu verilere göre satın alma birimine gelen günlük taleplerin aritmetik ortalamasını ve standart sapmasını bulunuz. *Aritmetik ortalama: *Standart sapma s = 3,85 Servis isteği 3 (3-7)=-4 16 4 (4-7)=-3 9 5 (5-7)=- 4 7 (7-7)=0 0 10 (10-7)=3 9 13 (13-7)=6 36 X i =4 =74 X = ( Xi X ) S N 1 X i X X i n = 4 6 = 7 74 6 1 ( X i X ) 14,8
Örnek: Aşağıdaki sınıflandırılmış serinin standart sapmasını bulunuz Çözüm 1 X f f.x (X X) f(x X) 3 6 (3-5) = 4 8 4 4 16 (4-5) = 1 4 5 8 40 (5-5) = 0 0 6 4 4 (6-5) = l 4 7 14 (7-5) = 4 8 T 0 100 4 1. Aritmetik ortalama hesaplanır X = X i = 100 = 5 n 0 3. Standart sapma hesaplanır s = f i(x i X) = 4 f i 0. Her bir sınıf değerinden, aritmetik ortalama çıkarılır, sonuçların kareleri alınarak, kendilerine karşılık gelen frekanslarla çarpılarak sonuçlar toplanır. = 1, = 1,1
X f fx X fx 3 6 9 18 4 4 16 16 64 5 8 40 5 00 6 4 4 36 144 7 14 49 98 s = fx i f i Çözüm fx i f i formülü ile Statndart sapma bulunabilir. Toplam 0 100 54 s = fx i f i fx i f i = 54 0 100 0 = 6, 5 = 1, = 1,1
Örnek: Aşağıdaki gruplandırılmış serinin standart sapmasını bulunuz. Çözüm 1 Sınıflar f m f.m 1-3 7 14 4-6 8 5 40 7-9 10 8 80 10-1 8 11 88 13-15 7 14 98 Toplam 40 30 1. Gruplandırılmış serinin standart sapmasını bulmak için; serinin sınıf orta noktalarından ve aritmetik ortalamasından faydalanılır. X = f im i f i = 30 40 = 8
. Her bir sınıf orta noktasından, aritmetik ortalama çıkarılarak sonuçların karesi alınır ve kendilerine karşılık gelen frekanslarla çarpılarak sonuçlar toplanır. Elde edilen toplam, veri sayısına bölünerek standart sapma bulunur. Sınıflar f m (m X) f(m X) 1-3 7 ( 8) = 36 5 4-6 8 5 (5 8) = 9 7 7-9 10 8 (8 8) = 0 0 10-1 8 11 (11 8) = 9 7 13-15 7 14 (14 8) = 36 5 T 40 648 s = f i (m i X) f i = 648 40 = 16, = 4,04
Çözüm Serinin standart sapması s = fm i f i fm i f i formülü ile bulunur. Sınıfl ar f m fm m (fm) 1-3 7 14 4 8 4-6 8 5 40 5 00 7-9 10 8 80 64 640 10-1 8 11 88 11 968 13-15 7 14 98 196 137 T 40 30 308 s = fm i f i = 308 40 8 = 80, 64 fm i f i = 16,= 4,04
Standart sapmanın kısa yoldan hesaplanması Standart sapma kareli ortalamadan aritmetik ortalama çıkarılarak bulunur. Sınıfl ar f m fm m fm 1-3 7 14 4 8 4-6 8 5 40 5 00 7-9 10 8 80 64 640 10-1 8 11 88 11 968 13-15 7 14 98 196 137 T 40 30 308 *Aritmetik ortalama X = *Kareli ortalama f im i f i = 30 40 = 8 k i1 k i1 i i 308 40 Standart sapmas = (K. O) A. O = 80, 64 = 16, = 4,04 K f i m f
* Standart hata, verilen bir seviyesinde, n birimlik bir örneklemden elde edilen ortalama değerin, ana kütlenin parametresi olan değeri için, güvenli bir aralık oluşturmada kullanılın Standart hata, n birimlik bir örneklemden, elde edilen standart sapma ile s X= s n = s n biçiminde hesaplanır Formülden görüldüğü üzere, n değerinin değişmesi ile standart hata değeri de değişmektedir. Dolayısıyla, veri sayısı, ana kütle ortalamasının () daha güvenli tahmin edilmesinde etkindir. İlerleyen konularda anlatılacak olan güven aralığı, bir seviyesinde, X s X μ X + s X biçiminde kabaca yazılabilir.
* Standart sapma (Standard deviation), bir çalışma grubundaki her bir verinin ortalamaya göre ne kadar uzaklıkta olduğunu, bir diğer deyişle dağılımın ne yaygınlıkta olduğunu gösteren bir ölçüdür. Başka bir şekilde tanımlanacak olursa; belirli bir popülasyonda incelenen özelliğin (veya özellikle ilgili değerlerin ya da ölçümlerin) ne genişlikteki bir aralıkta (dar veya geniş) dağıldığının göstergesi varyans ve onun bir türevi olan standart sapmadır. * Standart sapma büyüdükçe dağılım yaygınlaşır. Aynı popülasyondan seçilecek, aynı büyüklükteki örneklemlerin ortalamalarının yayılmasını gösteren ölçüt, ortalamanın standart hatasıdır (Standard error of mean).
* Standart sapma değerinin denek sayısının kareköküne bölünmesi ile elde edilen değerdir. * Ortalamanın standart hatası, ortalamanın dağılımındaki varyasyonu (değişimi) gösterir, örneklem sayısının artması ile küçülür. * Standart hatanın küçük olması popülasyon parametresine ait yapılacak olan tahminler açısından ve daha dar güven aralığı sınırlar bulma açısından önemlidir
* Verilerin aritmetik ortalamadan sapmalarının aritmetik ortalamasıdır. Standart sapmanın karesidir. * Standart sapmadaki köklü işlemlerden kaçınılması durumunda, standart sapma yerine, dağılım ölçüsü olarak varyans kullanılır ve Var = s = biçiminde gösterilir. * Bir veri grubundaki bütün birimlerin hesaba katılmasıyla belirlendiği için, uygulamada en fazla kullanılan ve en güvenilir dağılım ölçüsüdür. * Varyans, eşit aralıklı (interval scale) ve oran (ratio scale) ölçek düzeyleri ile elde edilmiş, sayısal değişkenler için kullanılır.
* Varyans; basit, sınıflandırılmış ve gruplandırılmış seriler için aşağıdaki gibi hesaplanır. Basit Seri s = (X i X) n = X i n X i n Sınıflandırılmış Seri s = f i(x i X) = fx i f i f i fx i f i Gruplandırılmış Seri s = f i(m i X) = fm i f i f i fm i f i
Örnek: 3,4,5,6,7,8,9 basit serisinin varyansını bulunuz. Çözüm 1 X X X (X X) 3 3-6 = -3 9 4 4-6 = - 4 5 5-6= -1 1 6 6-6 = 0 0 7 7-6 = 1 1 8 8-6= 4 9 9-6=3 9 Toplam 3. Standart sapma hesaplanır 8 1. Aritmetik ortalama hesaplanır X = X i n = 4 7 = 6. Her bir sınıf değerinden, aritmetik ortalama çıkarılır, sonuçların kareleri alınarak, kendilerine karşılık gelen frekanslarla çarpılarak sonuçlar toplanır. Var = s = (X i X) n 1 = 8 6 1 = 5,6
*Standart sapmanın ortalamanın bir yüzdesi olarak ifade edilmesine değişim katsayısı adı verilir. Bu tanıma göre standart sapmanın büyüklüğü aritmetik ortalamaya göre ifade edilmektedir. D. K.100 X *Bu ölçü farklı cins ve büyüklüklerdeki serileri aynı cins ve büyüklükte (yüzde cinsinden) ifade etme imkanı sağlamaktadır. Ancak bu ölçünün bir dezavantajı bir üst sınırının olmamasıdır. Yani değişim katsayısı %100 ü geçen değerler de alabilmesi bu ölçünün zayıf tarafıdır. Eğer bu ölçünün üst sınırı %100 olsaydı verinin değişkenliğini daha iyi yorumlamak mümkün olurdu. Özellikle ortalaması sıfıra yakın seriler için kullanımı pek uygun değildir.
*D.K = 30 ise, standart sapma aritmetik ortalamanın %30 demektir. *Değişim katsayısma, standart sapmanın aşağıda belirtilen iki dezavantajından dolayı ihtiyaç duyulmuştur. * İki veya daha fazla serinin dağılımlarının karşılaştırılmasında, bu dağılımların ölçme birimleri farklı ise yalnız standart sapmalarına bakarak karar vermek yanlış olur. * A s A =10 Cm B s B =3 Kg *Karşılaştırılan, iki seriden birincisi, hep küçük değerlerden, diğeri ise hep büyük değerlerden oluşmuş ise, ister istemez birinci serinin standart sapması daha küçük çıkacaktır. Bu durumda sadece standart sapmalara bakarak dağılımları karşılaştırmak aldatıcı olabilir.
Örnek: * Elekt. Tük.(kw/h) Konut Say.(f i ) mi fi.mi fi.mi 50-100 10 75 750 5650 100-150 0 15 500 31500 150-00 30 175 550 918750 00-300 15 50 3750 937500 300-500 5 400 00 800000 *Elektrik Tüketimi İçin: K * Değişim katsayısı: X 1450 X 178,15 305000 K 3781, 5 80 80 3781,5 178,15 6083,98 78 78 D. K 100 D. K 100 X 178,15 DK %44,8
Su Tük.(ton/h) Konut Say. mi fi.mi fi.mi 5-15 10 10 100 1000 15-5 30 0 600 1000 5-35 40 30 100 36000 35-45 0 40 800 3000 45-65 10 55 550 3050 *Su Tüketimi İçin değişim katsayısı; 350 11150 X 9,55 K 1011, 4 110 110 K X D. K.100 D. K X 1011,4 9,55 11,75.100 9,55 138,16 11,75 DK %39, 76 *Bu verilere göre elektrik tüketiminin değişkenliği (DK=44,8) su tüketiminin değişkenliğine göre (DK=39.7) daha fazladır.
* Örnek: Aşağıdaki dağılımların hangisinde değişkenliğin daha az olduğunu bulunuz. A Serisi s A = 10 cm X A = 40 cm B Serisi s B = 4kg X B =8kg * D.KA < D.KB olduğundan A serisinin değişkenliği daha azdır. Dolayısıyla A serisindeki veriler ortalama etrafında daha sık dağılmışlardır. * Serilerin hangisinde değişkenliğin daha az olduğunu bulabilmek için serilerin değişim katsayıları hesaplanır. D. K A = A Serisi s A =10 cm X A = 40 cm 10 Cm 40 Cm. 100 = 5 B Serisi s B =4kg X B =8kg D. K B = 4 Kg 8 Kg. 100 = 50
*Örnek: X hastalığı İçin yapılan bir araştırmada, 3, 4, 5, 6, 7, 8, 9 verileri elde edilmiştir. Bu basit serinin standart sapmasını (standart deviation), varyansını (variance) ve standart hatasını (standart error mean) bulunuz. *Veriler SPSS e yandaki gibi girilir
*Standart sapma, varyans ve standart hata değerlerini hesaplayabilmek için, SPSS ekranında sırayla AnalyzeDescriptive Statistics Frequencies menüsüne girilir Frequencies menüsü tıklandıktan sonra, görüntüye gelen ekranda X değişkeni test variable list kısmına aktarılır.
*Statistics butonu tıklanarak, gelen ekranda, standart deviation, variance ve standart error mean menüleri işaretlenir
*Analizin sonucunu görebilmek için ok tıklanır ve sonuçlar aşağıdaki gibi elde edilir. Statistics X Valid 8 N Missing 0 Std. Error of Mean,86603 Std. Deviation,44949 Variance 6,000 *Standart hata (Standart Error Mean) =0,866 *Standart sapma =,449 *Varyansı = 6 olarak bulunur.