TANIMLAYICI İSTATİSTİKLER
Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin ve değişkenlik (yayılma) durumu ve miktarının görülmesi gerekir. Gösterilen verinin ölçüm seviyesi kullanılabilecek grafik ve tablonun türü konusunda bir kısıt oluşturur
Frekans Dağılımları Sıralı, Aralık ve Oran seviyelerinde ölçülen veriler kolaylıkla frekans dağılımı ile özetlenebilirler Veriler sayısal olarak sıralı olan çeşitli gruplara ayrılırlar.
Frekans Dağılımları Telefon çağrı süreleri (dakika) 11.8 3.6 16.6 13.5 4.8 8.3 8.9 9.1 7.7 2.3 12.1 6.1 10.2 8.0 11.4 6.8 9.6 19.5 15.3 12.3 8.5 15.9 18.7 11.7 6.2 11.2 10.4 7.2 5.5 14.5 Bizim görevimiz bu verilerden anlamlı bilgiler çıkarmak
Frekans Dağılımları Yöntem Uygun sayıda sınıf belirle Her sınıf için uygun bir genişlik belirle Her sınıftaki kişileri say Örneğin 3 genişliğinde 6 sınıf
Frekans Dağılımları Bu işlemle birlikte bazı bilgiler kaybolur Belirlenen sınıf sayısı tamamen kullanıcıya bağlıdır Sınıf genişliği sınıf sayısına karar verildikten sonra belirlenir Sınıflar arası çakışma olmamalıdır Sınıf genişliklerini eşit tutmaya çalışmak gerekir
Frekans Dağılımları Sınıf Aralık Frekans 1 2.. 5 3 2 5.. 8 6 3 8.. 11 8 4 11.. 14 7 5 14.. 17 4 6 17.. 20 2 Toplam 30
Frekans Histogram Frekans tablosunun grafik gösterimidir 9 8 7 6 5 4 3 2 1 0 2-5 5-8 8-11 11-14 14-17 17-20 Telefon çağrı süresi (dakika)
Frekans Histogram 10 8 6 4 2 0 3,5 6,5 9,5 12,5 15,5 18,5 Orta noktalar (dakika)
Dal Yaprak Grafikleri Dal-Yaprak Grafikleri verilerin özelliklerini incelemek için kullanılabilecek faydalı bir sıralama yöntemidir. Veriyi hem tablo hem grafik olarak gösterir.
Dal Yaprak Grafikleri Aşağıdaki ham verilere bakalım 19.2 19.8 18.0 19.2 19.5 17.3 20.0 20.3 19.6 18.5 18.1 19.7 18.4 17.6 21.2 19.7 22.2 19.1 21.1 19.3 20.8 21.2 21.0 18.7 19.8 18.7 22.1 17.2 18.4 21.4
Dal Yaprak Grafikleri Dal Yaprak 17 236 18 0144577 19 1123567789 20 038 21 01224 22 12
Dal Yaprak Grafikleri D-Y aynı bilgileri sunar ancak verideki bazı kritik noktaları kolayca görmemizi sağlar. Örneğin en büyük ve en küçük değerler nerdedir, değerlerin çoğunluğu nerede yatmaktadır, orta değer nerededir, vs. Burada dal değerlerini belirlemekte zorluk yaşanabilir.
Kategorik verilerin grafikle gösterilmesi Veriler kategorik seviyede ölçüldüğü zaman histogram, frekans dağılımı ve dal-yaprak grafiklerinin kullanımı geçerli olmaz. Çünkü kategorilerin hangi sırada olduğunun bir önemi yoktur
Pasta Grafiği Her dilimin bir kategoriyi temsil ettiği, dilimlere ayrılmış bir dairedir. Her dilimin alanı o kategoriye karşılık gelen veri oranını temsil eder Amacımız her kategorinin göreli büyüklüğünü göstermek olduğu durumlarda kullanılır
Pasta Grafiği Oy oranları A partisi B Partisi C Partisi D Partisi E Partisi Diğerleri
Çubuk grafiği Her kategorinin frekansı dikey bir çubuk ile gösterilir. Bu ham veriler olabileceği gibi göreli frekanslar da olabilir Farklı kategorileri karşılaştırmak için uygundur Çubuklar boşluklarla ayrılır
Oy Oranı Çubuk grafiği 45 40 35 30 25 20 15 10 5 0 A Partisi B Partisi C Partisi D Partisi E Partisi Diğer
Tanımlayıcı İstatistikler Büyük veri kümeleri çoğu zaman sadece birkaç sayı ile yeterince açıklanabilirler Merkezi Eğilim Ölçüleri Değişkenlik Ölçüleri
Merkezi Eğilim Ölçüleri Merkezi eğilim ölçüleri veri kümelerini açıklamada en sık kullanılan ölçülerdir. Bu sayılar bize veri kümesindeki ortalama, orta yada en sık görülen sayıyı verirler Bu bağlamda çeşitli ölçüler vardır. Burada en önemli 3 tanesinden bahsedeceğiz
Aritmetik Ortalama Genellikle kısaca ortalama olarak adlandırılır Bir örneklemde x üzeri çizgi ile gösterilir x Ana kütle de ise mü ile gösterilir
Aritmetik Ortalama Ortalama bütün değerlerin toplamının değer sayısına bölünmesiyle bulunur. Örneğin n tane gözlemden oluşan bir örneklemde ortalamanın değeri n x xi i 1 n
Aritmetik Ortalama Örneklem ortalaması genellikle ana kütle ortalamasını tahmin etmede kullanılır Ortalama her değeri toplama eklediğinden, uç değerlerden önemli ölçüde etkilenir. Ve dolayısıyla verileri temsil ederken yanıltıcı olabilir
Medyan - Ortanca Verinin bir modu yoksa, ve simetrik değilse o zaman medyan tercih edilir Medyan serideki veriler sıraya dizildiğinde ortadaki değerdir. Yani medyanın altında ve üstünde eşit sayıda gözlem bulunur
Medyan Eğer tek sayıda değer varsa, medyan ortadaki değerdir. Değilse, ortadaki iki değer arasındadır ve bu iki sayının ortalaması alınarak bulunur
Medyan Verileri sıraya koyun Aşağıdaki formülü kullanarak orta değeri bulun Orta değer n 1 2 konumundaki değer
Medyan Örnek; 12, 34, 47, 32, 19, 17, 15 7 adet gözlem var, dolayısıyla; n 1 = 7 1 = 4 üncü değer 2 2 Sıraya konulduğunda; 12, 15, 17, 19, 32, 34, 47 Medyan 19 dur
Medyan Başka bir örnek; Veriler = 4, 6, 8, 9, 12, 16 6 adet gözlem var, dolayısıyla; n 1 = 6 1 = 3.5 uncu değer 2 2 = 3. ve 4. değerlerin ortalaması = 8 ve 9 un ortlaması = 8.5 Medyan 8.5
Medyan Medyan sadece gözlem sayısından etkilenir, bu gözlemlerin değerlerinden etkilenmez. Dolayısıyla uç değeler medyanı etkilemez Örneğin 3, 3, 5, 7, 8, 12, 13 ve 3, 3, 5, 7, 8, 12, 95 Medyanları aynıdır
Mod Mod bir veri kümesinde en sık rastlanan değer(ler) dir Özellikle ortalama ve medyanı hesaplamanın mümkün olmadığı kategorik verilerde faydalıdır. Bir dağılımın birden fazla modu olabilir
Mod Bir dağılımın merkezi noktasını temsil etmeyebilir. Bir sayı değil de bir aralık olabilir
Merkezi Eğilim Ölçüleri Örneği Aşağıdaki verileri ele alalım 12 34 56 34 21 23 1 19 17 12 34 53 Ortalama, medyan ve modu hesaplayalım
Merkezi Eğilim Ölçüleri Örneği Ortalama = (12+34+56+34+21+23+1+19+17+12+34+53) = 26.33 x n xi i 1 n 12
Merkezi Eğilim Ölçüleri Örneği Medyan Orta değer = n 1 2 inci değer = 12 1 2 = 6.5 uncu değer = 6. ve 7. sayıların ortalaması Sayıları sıraya koyduğumuzda; 1 12 12 17 19 21 23 34 34 34 53 56 Medyan = (21+23)/2 = 22
Merkezi Eğilim Ölçüleri Örneği Mod sayılar : 1 12 17 19 21 23 34 53 56 frekanslar: 1 2 1 1 1 1 3 1 1 Dolayısıyla, mod=34
0-4 >4-8 >8-12 >12-16 >16-20 >20-24 >24-28 >28-32 >32-36 >36-40 Frekans Ortalama, Medyan ve Modun karşılaştırılması Eğer verilerin tek modu var ve veriler simetrikse, bu üç değer birbirine yakın veya benzerdir 18 16 14 12 10 8 6 4 2 0 Yaş Sınıfı Aralıkları (yıl)
Ortalama, Medyan ve Modun karşılaştırılması Verilerde eğiklik varsa ortalam ve medyan birbirine eşit olmaz. Ortalama eğikliğe doğru sürülenir. Yani + eğiklik durumunda ortalama medyandan büyük olur - eğiklik durumunda, ortalama medyandan küçük olur.
0-4 >4-8 >8-12 >12-16 >16-20 >20-24 >24-28 >28-32 >32-36 >36-40 Frekans Ortalama, Medyan ve Modun karşılaştırılması 14 12 10 8 6 4 2 0 Sağa Eğik Yaş Sınıfı Aralığı (Yıl) Ortalama > Medyan > Mod
0-4 >4-8 >8-12 >12-16 >16-20 >20-24 >24-28 >28-32 >32-36 >36-40 Frekans Ortalama, Medyan ve Modun karşılaştırılması Sola Eğik 16 14 12 10 8 6 4 2 0 Yaş Sınıfı Aralıkları (Yıl) Ortalama < Medyan < Mod
Yayılma Ölçüleri Bir dağılımın diğer önemli özelliği ise yayılma ölçüsüdür. Yani veri ne kadar değişiklik göstermektedir. Yaygın bir biçimde kullanılan 4 yayılma ölçüsü: Aralık, varyans, standart sapma ve değişim katsayısıdır. Ayrıca Dördebölenler aralığına da bakacağız
Aralık Aralık bir veri kümesindeki en büyük değer ile en küçük değer arasındaki farktır Aralık = x max - x min Örneğin; 2005 yılında benzin fiyatları 2,75 YTL ile 3,05 YTL arasında değişmiştir
Aralık Aralık bu iki uç nokta arasında verilerin nasıl dağıldıkları konusunda bize bir bilgi sağlamaz. Örneğin dağılımın her iki ucunda da veya ortalarda da yığılmalar söz konusu olabilir ama biz bu bilgiyi aralıktan öğrenemeyiz.
Varyans Bütün verileri dikkate alan ve en çok kullanılan yayılma ölçüleri varyans ve standart sapmadır. Daha çok değişkenlik içeren bir veri kümesinin varyansı, nispeten daha homojen (daha az değişkenlik içeren) bir veri kümesinin varyansından büyük olur. Varyans, gözlemlerin ortalamadan sapmalarının kareleri toplamının gözlem sayısına bölümüyle bulunur.
Varyans Şu sayıları ele alalım: 5, 17, 12, 10 Bu verilerin ortalaması (5+17+12+10)/4 = 11 Sapma her bir gözlemin ortalamaya olan uzaklığıdır.
Varyans Ortalama = 11 Veriler = 5 10 12 17 Sapmalar Bu veriler için sapmaları hesaplarsak 5-11 = -6 10-11 = -1 12-11 = 1 17-11 = 6
Varyans xi xi Biz burada sapmaların karesi ile ilgileniyoruz. Dolayısıyla, sayıların karesini alırız Sayı Sapma Sapmanın Karesi 2 xi xi xi 5-6 36 10-1 1 12 1 1 17 6 36
Varyans Karesi alınan sapmalar daha sonra toplanır ve gözlem sayısına bölünür. Böylece veri kümesinin sapması bulunur: Varyans = (36 + 1 + 1 + 36) / 4 = 18.5 Dolayısıyla varyans kareleri alınmış sapmaların ortalamasıdır
Varyans Bir ana kütle için varyans 2 ile gösterilir ve formülü N x i 2 i 1 N 2
Varyans Bir örneklem için varyans s 2 ile gösterilir ve formülü s 2 n i 1 x i x n 1 2
Standart Sapma Standart sapma varyansın pozitif kareköküdür. Dolayısıyla ana kütle standart sapması, örneklem standart sapması ise s, yani; Standart sapma ortalama ile aynı birime sahiptir s n i 1 x i x n 1 2
Değişim katsayısı Değişim katsayısı göreli bir değişkenlik ölçüsü olup herhangi bir birime sahip değildir ve genellikle yüzde olarak ifade edilir. Aynı birimlerle ölçülmemiş olan verileri karşılaştırmak veya birbirinden çok farklı ortalamalara sahip verileri kıyaslamak için kullanılır. Standart sapmayı ortalamaya bölerek hesaplanır
Değişim Katsayısı CV s x CV Bu katsayı oran seviyesinde ölçülmüş veriler için hesaplanabilir
Dördebölenler Veri ile ilgili bilgilerimizi artırmanın bir diğer yolu da orta yarıya bakmaktır Hatırlayacağınız gibi Medyan veri kümesinin ortasındaki değerdir. Yani gözlenen değerlerin %50 si medyanın üstünde %50 ise altındadır. Dördebölenler de benzer şekilde hesaplanır.
Dördebölenler İlk dörde bölen başlangıçtan ilk çeyrek uzaklıktadır. Yani verilerin çeyrek bölümü ilk dördebölenden küçüktür. Üçüncü çeyrek ise veri başlangıcından 3 çeyrek uzaktadır. Yani verilerin dörtte üçü 3. dördebölenden küçüktür
375 425 475 525 575 625 675 725 775 825 875 925 975 1025 Frequency Dördebölenler Company weekly salaries 35 30 25 20 15 10 5 0 Salary midpoint ($)
Dördebölenler Ör:Aşağıda sıraya konulmuş verileri ele alalım 2 3 5 9 12 17 23 29 31 32 35 11 sayı var, dolayısıyla medyan 6. sayı yani 17. İlk dörde bölen medyanın altındaki sayıların ortasındaki sayıdır. 2 3 5 9 12
Üçüncü dördebölen medyanın üstündeki gözlemlerin ortasındaki değerdir, 23 29 31 32 35 Dolayısıyla; 2 3 5 9 12 17 23 29 31 32 35 Verilerin ortadaki %50 si birinci ve üçüncü dörde bölen arasında yer alır.
Kutu çizimleri Kutu grafiği yukarıdaki bilgilerin tümünü içeren güzel bir grafiktir Kutu çizimi kolayca verilerin aralığını, yayıklığını ve dağılımın merkezini görmemizi sağlar min Q1 M Q3 max
Kutu çizimleri Kutu Çizimleri birden fazla dağılımı karşılaştırmada oldukça faydalıdır. 200 150 Kutu çizimleri dikey veya yatay olarak çizilebilirler. 100 50 Erkek Bayan
Temel Bilgiler Ana kütle parametreler ile tanımlanır. Bu amaçla kullanılan semboller Yunan alfabesi veya büyük harflerdir. Örneklemler istatistiklerle tanımlanırlar. Bu amaçla kullanılan semboller küçük harflerdir.
Özet İstatistik Ana kütle Örneklem Ortalama x Std Sapma s Varyans 2 s 2 Büyüklük N n