Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler
Merkezi Eğilim Ölçüleri
Merkezi eğilim ölçüsü, bir veri setindeki merkezi, yada tipik, tek bir değeri ifade eder. Nicel veriler için, reel sayı çizgisindeki yerini belirtir. Verinin merkezi, veri setinin ortalama değeridir. Aritmetik ortalama, medyan, mod, merkezi eğilim ölçüleridir.
Ortalamanın Hesaplanması En sık kullanılan merkezi eğilim ölçüsüdür. Veriler toplanır ve veri setindeki gözlem sayısına bölünür. Aritmetik ortalama, veri setinde olmayan bir değer olabilir.
Notasyon Popülasyon Örneklem Büyüklük N n A. Ortalama
Örnek 1 10 yıllık bir dönemde AAA hisse senedinin yıllık ortalama getirileri sırasıyla şöyledir: %14; %17,3; %29; %-11,1; %-4,5; %3,7; %13,3; %9,5; %6,1; %10 x = 14 +17,3+ 29 + (-11,1) + (-4,5) + 3,7 +13,3+ 9,5 + 6,1+10 10 = 87,3 = 8,73 10
Ağırlıklı Ortalama Veri setinde farklı relatif öneme sahip gözlemlerin olması durumunda kullanılır. Ağırlıklı Ortalama= Toplam(x i *w i ) / Toplam(w i ), x i, veri setindeki değerler w i, ağırlıklar, i, 1 den toplam gözlem sayısına kadar olan değerler
Ağırlıklı Ortalama (Örnek) Kategori Ağırlık Puan Vize Sınavı 30% 80 Final Sınavı 30% 75 Ödevler 30% 90 Sunumlar 10% 70 Ağırlıklı Ortalama = (80*0.3 + 75*0.3 + 90*0.3 + 70*0.1) / (0.3 + 0.3+ 0.3 + 0.1)=(24 + 22.5 + 27 + 7) / 1= 80.5
Örnek 2: Olasılık Satışlar Güzel hava 30% $10,000 Orta derecede güzel hava 50% $8,000 Kötü hava 19% $2,000 Kasırga 1% $0 Tahmin edilen satışları hesaplayınız
Medyanın Hesaplanması Medyan, sıralanmış bir veri setinin ortasındaki değerdir. Önce veri setindeki gözlemler sıralanır. Sonra, (a) n tek sayı ise, medyan ortadaki sayıdır. (b) n çift sayı ise, medyan ortadaki iki değerin aritmetik ortalamasıdır. Medyan, veri setinde olmayan bir değer olabilir.
Örnek 2 Aşağıdaki veri setlerinin medyan değerlerini hesaplayınız. 15, 16, 11, 22, 19, 10, 17, 22 2.6, 3.3, 5.0, 1.8, 0.7, 2.2, 4.1, 6.1, 6.7
Neden Medyan? Amaç Aykırı değerlerin yaratabileceği tehlikeleri bertaraf etmek. Örnek: 0, 2,1,2,0,1,2,0, 7 Ar. Ort. (0,2,1,2,0,1,2,0) = 1 Ar. Ort. (0,2,1,2,0,1,2,0, 7 ) = 1.6 Artış = (1.6-1) / 1 = 60% Medyan (0,2,1,2,0,1,2,0) = (0,0,0,1,1,2,2,2) = 1 Medyan (0,2,1,2,0,1,2,0,7) = (0,0,0,1,1,2,2,2,7) = 1
Modun Hesaplanması Veri setinde en sık gözlemlenen değer(ler)dir. Bir veri setinde bir tane, iki tane yada birçok mod değeri bulunabilir. Veri setindeki tüm değerler bir kere meydana geldiyse, yada her bir değer aynı sayıda tekrarlandıysa, o veri setinde mod yoktur. Mod daima veri setinde yer alan bir değerdir.
Örnek 3 Aşağıdaki veri setleri için mod değerlerini hesaplayınız. (a) 63, 68, 71, 67, 63, 72, 66, 67, 70 (b) 51, 77, 54, 51, 68, 70, 54, 65, 51 (c) 2, 2, 7, 7, 0, 0
Soru: Hangi eğilim ölçüsü en iyisidir? Cevap: Veriye göre değişir. Nitel veriler için mod kullanılmalıdır. Yani en sık gözlemlenen yada yaygın olan değer. Nicel veriler için, veri seti aykırı değer(ler) içermedikçe, aritmetik ortalama kullanılmalıdır. Aykırı değer(ler) bulunan veri setlerinde medyan kullanılmalıdır..
Örnek: Aşağıdaki veri setleri için en iyi merkezi eğilim ölçüsünü seçiniz. a. KSÜ öğrencilerinin ortalama beden ölçüsü (XS, S, M, L, XL, XXL). b. Futbol takımı oyuncularının aldıkları ortalama yıllık gelir. c. Belli bir muhitteki benzer evlerin fiyat ortalaması.
Merkezi Dağılım Ölçüleri
Merkezi eğilim ölçüleri verilerin sayı eksenindeki konumunu belirtir. Merkezi dağılım ölçüleri verilerin ne kadar yayıldıkları hakkında ipucu verir. Açıklık, varyans ve standart sapma en yaygın merkezi dağılım ölçüleridir.
Açıklığın Hesaplanması En basit dağılım ölçüsü açıklıktır. Açıklık = Maksimum değer değer Minimum Aşağıdaki veri setlerinin açıklıklarını hesaplayınız: a. 12 8 9 3 Çözüm: b. 3 3 12 3 Çözüm: 5 10 11 10 3 3 3 3
Ortalamadan Sapma Veri setindeki her bir değer ortalamadan ne kadar değişiklik göstermektedir? Ortalamadan sapma = Sapmalar toplamı her zaman sıfırdır (pozitif sapmalar negatif sapmaları götürür) Bu etki nasıl ortadan kaldırılır? Varyans
Varyansın Hesaplanması Varyans, ortalamadan sapmaların karelerinin ortalamasıdır. Formül: Örnek varyansı Popülasyon varyansı
Örnek: Aşağıdaki veri setinin varyansını hesaplayınız: 4.2 5.3 2.9 6.7 1.5 Çözüm: Önce verinin ortalamasını hesaplayın. Ortalama = 4.12. Örnek Varyansı x i 4.2 4.2 4.12 = 0.08 0.0064 5.3 5.3 4.12 = 1.18 1.3924 2.9 2.9 4.12 = 1.22 1.4884 6.7 6.7 4.12 = 2.58 6.6564 1.5 1.5 4.12 = 2.62 6.8644
Çözüm (devamı): Örnek varyansı ise,
Standart Sapmanın Hesaplanması Standart sapma her bir veri değerinin ortalamadan, ortalama olarak ne kadar uzaklıkta olduğunu ifade eder. Formula: Örnek standart sapması Popülasyon standart sapması
Örnek: Örnek verisinin standart sapmasını hesaplayınız. 5,8,7,6,9 Önce ortalama = Toplam (5,8,7,6,9) / 5 = 35 / 5 = 7 X i 5 5-7=-2 4 8 8-7=1 1 7 7-7=0 0 6 6-7=-1 1 9 9-7=2 4 s 2 =Toplam (4+1+0+1+4) / (5-1) = 10 / 4 = 2.5 s = 1.58
Kısayol: Bir önceki veri seti: 5,8,7,6,9 Toplam (x) = 5+8+7+6+9 = 35 Toplam (x 2 ) = (5) 2 +(8) 2 +(7) 2 +(6) 2 +(9) 2 = 25+64+49+36+81 = 255 [Toplam (x)] 2 = (35) 2 =1225 s 2 = [255-1225/5] / (5-1) = (255-245) / 4 = 10/4 = 2.5 s = 1.58
Örnek: Aşağıdaki veri seti için açıklık, varyans ve standart sapmayı hesaplayınız. 1,2,3,2,3,4,5,35 Çözüm:
Örnek: Aşağıdaki veri seti için açıklık, varyans ve standart sapmayı hesaplayınız. 15, 12, 13, 14, 15, 17, 18, 11, 12, 15 Çözüm:
Örnek: 20 Beyşehirli girişimcinin yaşları 28, 39, 43, 53, 35, 32, 34, 29, 33, 31, 32, 31, 25, 22, 30, 29, 41, 36, 23, 47 Çözüm:
Değişim Katsayısı İki veya daha fazla sayıdaki veri setinin göreli dağılımı veya yayılımını gösterir. Aşağıdaki veri setlerinden hangisinin daha büyük standart sapması vardır? Değişim katsayısı = (s / ). 100%
Değişim Katsayısı Aşağıdaki veri setlerinden hangisinin daha büyük standart sapması vardır? Veri seti A Ort. = 35 cm.; St. Sap. = 6 cm. Veri seti B Ort. = $892,000; St. Sap. = $14,546.81
Değişim Katsayısı Veri seti A Değişim katsayısı Veri seti B Değişim katsayısı
Gruplandırılmış Veri Setleri İçin Standart Sapma ve Varyans Final Notları Not Frekans (f) n = Örnek sayısı f = Frekans x = Orta nokta
Gruplandırılmış Veri Setleri İçin Standart Sapma ve Varyans Not Frekans (f) Orta nokta (x) f. x f. x 2
Ampirik Kuralı Veri seti yaklaşık olarak çanşeklinde olduğunda kullanılır. Bir setteki verilerin yaklaşık olarak %68 i 1 standart sapma aralığında ( %95 i 2 standart sapma aralığında ( - 2s), - s), %99.7 si ise 3 standart sapma aralığında ( - 3s)yer almaktadır.
Örnek (Ampirik Kuralının Kullanılması): Bir hastanede doğan bebeklerin ortalama ağırlıkları 3325 gram ve standart sapmaları 571 gramdır. Bebeklerin yüzde kaçının ağırlıkları 2183 ve 4467 gram aralığındadır? Çözüm: Veriler çan eğrisi özelliği gösterdiği için ampirik kuralı kullanılabilir. Öncelikle bu değerlerin ortalamadan kaç standart sapma uzak olduğu hesaplanır. 2183 3325 = 1142/571= 2 and 4467 3325 = 1142/571= 2 Veriler, ortalamanın 2 standart sapma üstünde ve altında yer almaktadır. Bundan dolayı, bebeklerin %95 inin ağırlıkları 2183 ve 4467 gram aralığındadır.
Örnek (Ampirik Kuralının Kullanılması): SÜ den mezun olanların yıllık gelirlerinin çan eğrisişeklinde dağıldığını, ortalamanın 25.400 TL ve standart sapmanın ise 1.300 TL olduğunu varsayalım. Mezun olanların yüzde kaçının yıllık gelirleri 24.100 TL ve 26.700 TL arasındadır? Çözüm:
Chebyshev Kuralı Ampirik kuralı kullanılamadığı durumlarda, Chebyshev Kuralı minimum düzeyde bir tahminleme yapılmasına olanak tanımaktadır Popülasyon üyelerinin en az yüzde ( ) lik bölümü, K > 1 olması koşulu ile ortalamanın K standart sapması etrafında toplanır. Buna göre, popülasyon üyelerinin lik bir bölümü ortalamanın 2 standart sapma etrafında yer almaktadır. luk bir bölümü ise ortalamanın 3 standart sapma
Örnek (Chebyshev Kuralı): Bir ilçede ortalama yıllık gelir 34.200 TL standart sapması ise 2.200 TL dir. İlçe sakinlerinin yüzde kaçının 29.800 ve 38.600 TL arasında yıllık geliri vardır? Çözüm:
Relatif Pozisyon Ölçüleri
Relatif Pozisyon Ölçüleri Relatif pozisyon ölçüleri, verilerin sıralanmış bir setteki pozisyonunu ifade etmektedir. En sık karşılaşılan relatif pozisyon ölçüleri çeyrekler, yüzdelikler ve standart skorlardır.
Çeyrekler Çeyrekler bir veri setini 4 eşit parçaya böler. Bir veri setindeki çeyrekleri bulmak için, (1)Veriyi ortadan ikiye bölmek için medyan değerini kullan (Q 2 ). Veri sayısı tek ise, medyanı üst ve alt yarımlar için kullan. Veri sayısı çift ise, medyanı iki yarımda da kullanma. (2) Alt grubun medyanı Q 1, ve üst grubun medyanı Q 3 dür.
Örnek (Çeyrekler): 2, 3, 5, 7, 8, 9, 10, 12, 15 Q 1 Q 2 Q 3
Örnek 2 (Çeyrekler): 10, 12, 14, 15, 14, 16, 17, 18, 10, 19, 17, 17 Verileri sıraya diz 10, 10, 12, 14, 14, 15, 16, 17, 17, 17, 18, 19 13 15.5 Q 1 Q 2 17 Q 3
Örnek 3 (Çeyrekler): Aşağıdaki veri setinin Q 1, Q 2, ve Q 3 değerlerini bulunuz. 11 11 14 15 16 16 17 19 22 25 26 27 31 34 36
5 li Sayısal Değerler Özeti 5 li sayısal değerler özeti aşağıdaki değerleri içermektedir: (1) Minimum (2) Q 1 (3) Medyan (4) Q 3 (5) Maksimum Box grafiği, 5 li sayısal değerler özetini temsil eden bir grafiktir.
Box Grafiğinin Hazırlanması 8 9 10 2 5 3 7 12 15 Verileri sıraya diz. 2 3 5 7 8 9 10 12 15 Minimum Q 1 Q 2 Q 3 Maksimum 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Yüzdelikler Yüzdelikler veri setinin 100 eşit parçaya böler. n inci yüzdelik dilimdeki değerler, verilerin %n i veya daha fazlasını kapsamaktadır. Formül: l = n p 1 0 0 l verinin pozisyonu n örnek sayısı p tam sayı olarak yüzdelik değeri
Örnek (Yüzdelikler): 30. Yüzdelik dilimde hangi değer vardır? 11 11 14 15 16 16 17 19 22 25 26 27 31 34 36 Çözüm: Önce verileri sıraya diz. 11 11 14 15 16 16 17 19 22 25 26 27 31 34 36 Örnek sayısı: n = 15. 30. Yüzdelik dilim: p = 30. l = 4.5 olduğundan dolayı 5 e yuvarlanır ve 5. sıradaki değer, yani 30. yüzdelik dilimdeki değer 16 dır.
Veri setindeki bir değerin yüzdelik diliminin bulunması P=x*100/n P = tam sayı olarak yüzdelik dilim x = belirli bir değerin altındaki değer sayısı n = örnek sayısı En lezzetli sazan yarışmasında 13 katılımcının skorları aşağıdaki gibidir: 5,5,5,6,6,6,7,7,7,8,9,9,10 Soru: Ali Usta nın skoru 9 ise, hangi yüzdelik dilimde yer almaktadır? Cevap Yüzdelik = 10 * 100 / 13 = 77. yüzdelik dilim.
Standart Skor (z-değeri) Standart skor, yada z-değeri, veri setinde bulunan bir değerin ortalamadaki pozisyonu hakkında bilgi vermektedir. Formül: Popülasyon ortalaması Örnek ortalaması Popülasyon standart sapması Örnek standart sapması
Örnek Vize sınavındaki ortalamanın 80.1 ve standart sapmanın 6.3 olduğunu varsayalım. Ayşe 92.5 aldıysa standart skoru nedir? Çözüm: µ = 80.1 σ = 6.3 x = 92.5 z = 92.5 80.1 = 1.97 6.3
Örnek: Sınavda, sınıfa göre kim daha başarılı oldu? Ahmet 87 aldı. x = 80 s = 5 Aslı 82 aldı. x = 73 s = 6 z = 1.4 z = 1.5