Ders 8: Verilerin Düzenlenmesi ve Analizi
Betimsel İstatistik Merkezsel Eğilim Ölçüleri Dağılım Ölçüleri Grafiksel Gösterimler
Bir kitlenin tamamını, ya da kitleden alınan bir örneklemi özetlemekle (betimlemekle) ilgilenen istatistik dalına betimsel istatistik denir. Örneklemden elde edilen verileri kullanarak kitlenin tamamı hakkında öngörüde bulunmayı amaçlayan istatistik dalına ise tümevarımsal amaçlı istatistik denir.
Kagetorik (özellik belirten) değişkenler: Nitel özellikleri belirten değişkenlerdir. Örnek: medeni durum, meslek Sıralama değişkenleri: Büyüklükleri itibariyle sıralanabilen, ancak toplama-çıkarma gibi işlemlerin anlamsız olduğu değişkenlerdir. Örnek: Eğitim durumu, inşaat sınıfı (lüks, 1. sınıf,...) Sayısal değişkenler: Sürekli ya da kesikli olarak belli bir aralıktaki sayısal değerleri alan değişkenler
Bir kitleyi oluşturan tüm bireylerin ölçülerek verilerinin kaydedilmesine tamsayım denir. Bir kitlenin sadece bazı elemanlarının seçilerek ölçülmesine örnekleme, seçilmiş olan alt kümeye örneklem denir. Kitlenin tanımlayıcı sayısal ölçütlerine parametre, örneklemin tanımlayıcı sayısal ölçütlerine örneklem istatistiği denir. Parametrenin tesbiti için tamsayım gerekir, örneklem kullanılarak parametreler tahmin edilebilir.
Aritmetik Ortalama: Gözlemnenen değerlerin toplamının gözlem sayısına bölümü ile elde edilir. x = x 1+x 2 + +x n n En yaygın olarak kullanılan merkezi eğilim ölçütüdür, ancak sapan (aşırı) değerlerden etkilenir.
Büyüklüklerine göre sıralanmış gözlemler grubunun merkezi değerine medyan denir. M = x n+1 2 n tek ise xn 2 +x n 2 +1 2 n çift ise Sapan (aşırı) değerlerden etkilenmez.
Veri kümesinde en çok tekrarlanan değere mod (tepe değer) denir. Kategorik değişkenlerin ortalama ve mod hesabı yapılamadığı için kullanılır. Sürekli rastgele değişkenler incelenirken aynı değer birden fazla kez gözlemlenmez, dolayısıyla gözlemler sınıflara ayrılır.
25 parça pamuk lifi alınmış ve su emicilikleri ölçülerek aşağıdaki değerler bulunmuştur 18,82 19,87 18,44 20,47 18,01 19,17 21,67 18,60 21,74 20,67 22,98 21,76 19,06 22,61 20,21 22,02 21,12 18,15 22,20 21,18 20,77 19,23 18,02 18,15 19,59 a) Örneklemin ortalamasını ve ortancasını hesaplayınız b) Örneklemi 5 eşit aralığa bölüp modunu bulunuz
25 x = 1 x 25 i 20,18 i=1 M = x 13 = 20,21 Aralık 18,00-19,00-20,00-21,00-22,00-18,99 19,99 20,99 21,99 22,99 Gözlem Sayısı 7 5 4 5 5 Gözlemler 18,01 19,06 20,21 21,12 22,02 18,02 19,17 20,47 21,18 22,2 18,15 19,23 20,67 21,67 22,61 18,15 19,59 20,77 21,74 22,98 18,44 19,87 21,76 18,6 18,82 Mod = (18,00; 18,99)
G. O. = n x 1 x 2 x n log G. O. = 1 n log x 1 + log x 2 + + log x n n H. O. = 1 x1 + 1 x2 + 1 xn H. O. G. O. A. O.
Ortalama değere uzaklığın karesinin ortalamasına varyans denir. Kitle için: σ 2 = x 1 μ 2 + x 2 μ 2 + x N μ 2 N Örneklem için: s 2 = x 1 x 2 + x 2 x 2 + x n x 2 n 1
Varyansın kareköküne standart sapma denir. σ = σ 2 s = s 2 Ölçülen değer ile aynı birimde olduğu için tercih edilir.
Standart sapmanın ortalamaya bölümüne değişim katsayısı denir D. K. = σ x μ x 100% Standart sapmanın birimi değişkenin birimi ile aynıdır. Varyansın birimi değişkenin biriminin karesidir. Birimleri ya da büyüklükleri farklı olan değişkenlerin dağılımlarını karşılaştırmak için birimsiz olan değişim katsayısı kullanılır.
Örneklemi eşit sayıda gözlemi bulunan 4 sınıfa bölen çeyrek değerlerine Q 1, Q 2 = M ve Q 3 denir. p r ile gösterilen r inci yüzdelik, gözlemlerin %r sinden büyük olan değerdir.
Çeyrekler arası değişim: d = Q 1 Q 3 Ortalama Mutlak Sapma: Aralık: OMS = n i=1 x i μ n r = x max x min
25 parça pamuk lifi alınmış ve su emicilikleri ölçülerek aşağıdaki değerler bulunmuştur 18,82 19,87 18,44 20,47 18,01 19,17 21,67 18,60 21,74 20,67 22,98 21,76 19,06 22,61 20,21 22,02 21,12 18,15 22,20 21,18 20,77 19,23 18,02 18,15 19,59 Örneklemin varyansını, standart sapmasını, değişim yüzdesini, aralığını ve çeyrekler arası değişimini bulunuz.
n i=1 2 s 2 x i x = 2,48 n 1 s = s 2 = 2,48 1,57 D. K = s = 1,57 %100 %7,8 x 20,18 r = x max x min = 22,98 18,01 = 4,97 Q 1 = 18,82 Q 3 = 21,67 d = Q 3 Q 1 = 2,85
Birden fazla öğenin nisbi değerlerini göstermekte iyidir. Dikek eksen, yatay eksenden yaklaşık %15 kısa olmalıdır. Tüm sütunlar aynı genişlikte olmalı, sütunlar arası genişlik sütun genişliğinin yarısı kadar olmalı. Başlangıç mümkünse sıfır değerinde olmalı, aksi durumda açıkça gösterilmeli. Sütunlar mantıklı bir sırada dizilmeli 2011 Ocak ayında trafiğe yeni kaydolan binek araçların üretiye göre ayrılması 25 000 20 000 15 000 10 000 5 000 0 Kaynak: www.tuik.gov.tr
Değerlerin zaman içinde değişimini göstermeye uygundur 4 ten fazla çizginin takibi zordur Başlangıç değeri sıfır olmaldır, değilse açıkça belirtilmelidir. 8 000 000 7 000 000 6 000 000 Trafiğe yeni kaydolan motorlu taşıtların yıllara göre değişimi 5 000 000 4 000 000 3 000 000 2 000 000 Automobile Tractor Motorcycle 1 000 000 0 Kaynak: www.tuik.gov.tr
Bir bütünün parçalarının birbirlerine göre büyüklüklerini göstermede kullanılır 7 den fazla dilim kullanıldığında anlaşılması zor olur 3 boyutlu pastalarda öndeki dilimler olduklarından büyük gözükürler Dilimlerin isimleri yatay ve mümkünse dilimin içine yazılmaldır Bir dilimi vurgulamak için diğerlerinden ayrık gösterilebilir. 2010 Türkiye de 2010 kırmızı et üretimi Keçi Manda %3 %1 Koyun %17 Sığır %79 Kaynak: www.tuik.gov.tr
Gözlemlem sıklıklarını bitişik sütunlar halinde gösterir Sınıf sayısı n den az olmalıdır 8 7 6 5 4 3 2 1 0 Histogram